Tekoälyn ja koneoppimisen rooli puheentunnistuksessa
Tekoälyn ja koneoppimisen rooli puheentunnistuksessa
Ihmiset halusivat jo pitkään pystyä puhumaan koneiden kanssa. Siitä lähtien, kun he alkoivat rakentaa tietokoneita, tiedemiehet ja insinöörit ovat yrittäneet sisällyttää puheentunnistuksen prosessiin. Vuonna 1962 IBM esitteli Shoeboxin, puheentunnistuskoneen, joka pystyi tekemään yksinkertaisia matemaattisia laskelmia. Tämä innovatiivinen laite tunnisti 16 puhuttua sanaa ja vastasi niihin, mukaan lukien kymmenen numeroa nollasta 9:ään. Kun puhuttiin numeroita ja komentosanoja, kuten "plus", "miinus" ja "yhteensä", Shoebox käski lisäyskonetta laskemaan ja tulostamaan vastaukset yksinkertaisiin aritmeettisiin tehtäviin. Shoeboxia ohjattiin puhumalla mikrofoniin, joka muutti äänen äänet sähköimpulsseiksi. Mittauspiiri luokitteli nämä impulssit erityyppisten äänien mukaan ja aktivoi liitetyn lisäyskoneen relejärjestelmän kautta.
Ajan myötä tämä tekniikka kehittyi, ja nykyään monet meistä ovat rutiininomaisesti vuorovaikutuksessa tietokoneiden kanssa äänellä. Nykyään suosituimmat ääniavustajat ovat Amazonin Alexa, Applen Siri, Google Assistant ja Microsoftin Cortana. Nämä avustajat voivat suorittaa tehtäviä tai palveluita yksilölle komentojen tai kysymysten perusteella. He osaavat tulkita ihmisen puhetta ja vastata syntetisoitujen äänien kautta. Käyttäjät voivat kysyä assistentilta kysymyksiä, ohjata kodin automaatiolaitteita ja median toistoa puheella ja hallita muita perustehtäviä, kuten sähköpostia, tehtävälistoja ja kalentereita sanallisten komentojen avulla. Mitä enemmän käytämme näitä puheohjattuja laitteita, sitä enemmän meistä tulee riippuvainen tekoälystä (AI) ja koneoppimisesta.
Tekoäly (AI)
Kun sanot tekoälyn (AI), monet saattavat ajatella, että puhut tieteiskirjallisuudesta, vaikka tekoäly onkin hyvin juurtunut jokapäiväiseen elämäämme. Itse asiassa se on ollut vuosikymmeniä. Mutta totuus on, että se oli todellakin tieteiskirjallisuus, joka 1900 -luvun alussa tutustutti yleisön keinotekoisesti älykkäisiin ihmisen kaltaisiin robotteihin. 50-luvulla tekoälyn käsitteet nousivat yhä enemmän tutkijoiden ja filosofien kiinnostuksen kohteeksi. Tuolloin nuori brittiläinen matemaatikko Alan Turing ehdotti, ettei ole mitään syytä, miksi koneet eivät (ihmisen tapaan) voisi ratkaista ongelmia ja tehdä päätöksiä saatavilla olevan tiedon perusteella. Mutta tuona aikana tietokoneilla ei ollut mahdollisuutta muistaa, mikä on älykkyyden avain. He vain suorittivat komentoja. Mutta silti, Alan Turing loi tekoälyn perustavoitteen ja vision.
Tekoälyn isäksi tunnetaan laajalti John McCarthy, joka loi termin tekoäly . Hänelle tekoäly oli: "älykkäiden koneiden valmistuksen tiede ja suunnittelu". Tämä määritelmä esiteltiin konferenssissa Dartmouth Collegessa vuonna 1956 ja se osoitti tekoälytutkimuksen alkua. Siitä lähtien AI kukoisti.
Nykymaailmassa tekoäly on kaikkialla. Siitä on tullut suositumpi lisääntyneiden tietomäärien, kehittyneiden algoritmien sekä laskentatehon ja tallennustilan parannusten ansiosta. Enimmäkseen tekoälysovellus liittyy älyllisiin tehtäviin. Käytämme tekoälyä kääntämiseen, esineiden, kasvojen ja puheentunnistukseen, aiheen tunnistukseen, lääketieteellisen kuvan analysointiin, luonnollisen kielen käsittelyyn, sosiaalisten verkostojen suodatukseen, shakin pelaamiseen jne.
Koneoppiminen
Koneoppiminen on tekoälyn sovellus ja se viittaa järjestelmiin, joilla on kyky kehittyä omasta kokemuksestaan. Tärkeintä tässä on, että järjestelmän on osattava tunnistaa kuvioita. Jotta se onnistuisi, järjestelmää on koulutettava: algoritmi syöttää suuria määriä dataa, jotta se pystyy jossain vaiheessa tunnistamaan kuvioita. Tavoitteena on antaa tietokoneille mahdollisuus oppia automaattisesti ilman ihmisen väliintuloa tai apua.
Koneoppimisesta puhuttaessa on tärkeää mainita syväoppiminen. Aloitetaan sanomalla, että yksi tärkeimmistä syväoppimisen työkaluista ovat keinotekoiset hermoverkot. Ne ovat algoritmeja, jotka ovat saaneet inspiraationsa aivojen rakenteesta ja toiminnasta, vaikka ne ovat yleensä staattisia ja symbolisia, eivätkä plastisia ja analogisia kuten biologiset aivot. Syväoppiminen on siis keinotekoiseen hermoverkkoon perustuva koneoppimisen erikoismuoto, jonka tavoitteena on toistaa ihmisten oppimistapa ja tämä toimii loistavana työkaluna löytää malleja, jotka ovat aivan liian lukuisia ohjelmoijalle koneen opettamiseen. Parin viime vuoden aikana on puhuttu paljon kuljettajattomista autoista ja siitä, kuinka ne voivat muuttaa elämäämme. Syväoppimistekniikka on tässä avainasemassa, koska se vähentää onnettomuuksia mahdollistamalla auton erottamisen jalankulkijan palopostista tai punaisen valon tunnistamisen. Syväoppimisteknologialla on myös päärooli puheohjauksessa laitteissa, kuten tableteissa, puhelimissa, jääkaapeissa, televisioissa jne. Verkkokauppayritykset käyttävät usein keinotekoisia hermoverkkoja suodatusjärjestelmänä, joka yrittää ennustaa ja näyttää kohteet, joita käyttäjä haluaa ostaa. Syväoppimisteknologiaa käytetään myös lääketieteen alalla. Se auttaa syöpätutkijoita tunnistamaan syöpäsoluja automaattisesti ja edustaa siten valtavaa edistystä syövän hoidossa.
Puheentunnistus
Puheentunnistustekniikka tunnistaa puhutun kielen sanat ja lauseet ja muuntaa ne koneelle luettavaan muotoon. Vaikka jotkut ohjelmat voivat tunnistaa vain rajoitetun määrän lauseita, jotkin kehittyneemmät puheentunnistusohjelmat voivat tulkita luonnollisen puheen.
Onko esteitä voitettavana?
Vaikka puheentunnistustekniikka on kätevää, se ei aina suju mutkattomasti, ja siinä on edelleen joitain ongelmia ratkaistavaksi, sillä sitä kehitetään jatkuvasti. Mahdollisia ongelmia voivat olla muun muassa seuraavat: tallennuksen laatu saattaa olla riittämätön, taustalla voi olla ääniä, jotka vaikeuttavat puhujan ymmärtämistä, myös puhujalla voi olla todella voimakas aksentti tai murre (teitkö koskaan kuullut Geordien murretta?) jne.
Puheentunnistus on kehittynyt melko paljon, mutta se on vielä kaukana täydellisestä. Kaikki ei ole vain sanoista, kone ei silti pysty tekemään monia asioita, mitä ihmiset voivat: he eivät osaa lukea kehon kieltä tai tunnistaa sarkastista sävyä jonkun äänestä. Ihmiset eivät usein lausu jokaista sanaa oikein ja heillä on taipumus lyhentää joitain sanoja. Esimerkiksi puhuessaan nopeasti ja epävirallisesti englannin äidinkielenään puhuvat usein lausuvat "menee" kuten "gonna". Kaikki edellä mainitut aiheuttavat esteitä koneille, joita ne yrittävät voittaa, mutta niiden edessä on vielä pitkä matka. On tärkeää korostaa, että kun yhä enemmän tietoja syötetään kyseisiin algoritmeihin; haasteet näyttävät vähenevän. Automaattisen puheentunnistuksen tulevaisuus näyttää valoisalta.
Äänikäyttöiset käyttöliittymät ovat yhä enemmän saatavilla ja suosittuja kotitalouksissa. Siitä saattaa jopa tulla tekniikan seuraava alusta.
Gglot tarjoaa automaattisen puheentunnistuksen automaattisten transkriptiopalvelujen muodossa – muunnamme puheet tekstiksi. Palvelumme on helppokäyttöinen, se ei maksa sinulle paljoa ja se tehdään nopeasti!