Tehisintellekti ja masinõppe roll kõnetuvastuses

Tehisintellekti ja masinõppe roll kõnetuvastuses

Pikka aega tahtsid inimesed masinatega rääkida. Alates arvutite ehitamisest on teadlased ja insenerid püüdnud kõnetuvastust protsessi kaasata. 1962. aastal tutvustas IBM kõnetuvastusmasinat Shoebox, mis suudab teha lihtsaid matemaatilisi arvutusi. See uuenduslik seade tundis ära ja reageeris 16 öeldud sõnale, sealhulgas kümme numbrit vahemikus 0 kuni 9. Kui öeldi arv ja käsusõnad, nagu "pluss", "miinus" ja "kokku", juhendas Shoebox liitmismasinat arvutama ja printima lihtsate aritmeetikaülesannete vastused. Shoeboxi käitati mikrofoni rääkides, mis muutis häälehelid elektriimpulssideks. Mõõteahel klassifitseeris need impulsid erinevat tüüpi helide järgi ja aktiveeris releesüsteemi kaudu lisatud lisamismasina.

Aja jooksul see tehnoloogia arenes ja tänapäeval suhtlevad paljud meist tavapäraselt arvutitega hääle kaudu. Tänapäeval on populaarseimad hääleassistendid Amazoni Alexa, Apple'i Siri, Microsofti Google Assistant ja Cortana. Need assistendid saavad käskude või küsimuste alusel üksikisiku jaoks ülesandeid või teenuseid täita. Nad on võimelised tõlgendama inimkõnet ja reageerima sünteesitud häälte kaudu. Kasutajad saavad oma abilistele küsimusi esitada, juhtida koduautomaatika seadmeid ja meediumi taasesitust häälega ning hallata suuliste käskude abil muid põhitoiminguid, nagu meil, ülesannete loendid ja kalendrid. Mida rohkem me neid hääljuhitavaid seadmeid kasutame, seda rohkem me muutume sõltuvad tehisintellektist (AI) ja masinõppest.

Tehisintellekt (AI)

1

Kui ütlete tehisintellekti (AI), võivad paljud inimesed arvata, et räägite ulmest, kuigi tehisintellekt on meie igapäevaelus väga juurdunud. Tegelikult on see olnud aastakümneid. Kuid tõsi on see, et 20. sajandi alguses tutvustas avalikkust kunstlikult intelligentsete inimesetaoliste robotitega ulme. 50ndatel tõusid tehisintellekti mõisted üha enam teadlaste ja filosoofide huviorbiidis. Sel ajal arvas noor Briti matemaatik Alan Turing, et pole põhjust, miks masinad ei suudaks (nagu inimesedki) probleeme lahendada ja olemasoleva teabe põhjal otsuseid teha. Kuid sel ajal ei olnud arvutitel võimalust meelde jätta, mis on intelligentsuse jaoks võtmetähtsusega. Kõik, mida nad tegid, oli käskude täitmine. Kuid siiski oli Alan Turing see, kes pani paika tehisintellekti põhieesmärgi ja visiooni.

Laialdaselt tunnustatud tehisintellekti isana on John McCarthy, kes lõi termini tehisintellekt . Tema jaoks oli AI: "intelligentsete masinate valmistamise teadus ja tehnika". Seda määratlust esitleti 1956. aastal Dartmouthi kolledžis toimunud konverentsil ja see näitas AI-uuringute algust. Sellest ajast peale õitses AI.

Kaasaegses maailmas on tehisintellekt kõikjal. See on muutunud populaarsemaks tänu suurenenud andmemahtudele, täiustatud algoritmidele ning arvutusvõimsuse ja salvestusruumi täiustamisele. Enamasti on AI-rakendused seotud intellektuaalsete ülesannetega. Kasutame tehisintellekti tõlkimiseks, objektide, näo- ja kõnetuvastuseks, teemade tuvastamiseks, meditsiiniliste kujutiste analüüsiks, loomuliku keele töötlemiseks, suhtlusvõrgustike filtreerimiseks, male mängimiseks jne.

Masinõpe

Masinõpe on tehisintellekti rakendus ja see viitab süsteemidele, millel on võimalus oma kogemuste põhjal täiustada. Siin on kõige olulisem see, et süsteem peab teadma, kuidas mustreid ära tunda. Selleks on vaja süsteemi välja õpetada: algoritm söödab suuri andmemahtusid, nii et ühel hetkel suudab see mustreid tuvastada. Eesmärk on võimaldada arvutitel automaatselt õppida ilma inimese sekkumise või abita.

Masinõppest rääkides on oluline mainida süvaõpet. Alustame sellest, et üks peamisi süvaõppe tööriistu on tehisnärvivõrgud. Need on algoritmid, mis on inspireeritud aju struktuurist ja funktsioonidest, kuigi need kipuvad olema staatilised ja sümboolsed, mitte plastilised ja analoogsed nagu bioloogiline aju. Seega on süvaõpe tehisnärvivõrgul põhinev masinõppe spetsiaalne vorm, mille eesmärk on korrata inimeste õppimisviisi, ja see on suurepärane vahend, et leida mustreid, mida on programmeerija jaoks masina õpetamiseks liiga palju. Viimase paari aasta jooksul on palju räägitud juhita autodest ja sellest, kuidas need võiksid meie elu muuta. Süvaõppe tehnoloogia on siin võtmetähtsusega, sest see vähendab õnnetusi, võimaldades autol eristada jalakäijat tuletõrjehüdrandist või ära tunda punase tule. Süvaõppetehnoloogia mängib peamist rolli ka hääljuhtimisel sellistes seadmetes nagu tahvelarvutid, telefonid, külmikud, telerid jne. E-kaubanduse ettevõtted kasutavad sageli tehisnärvivõrke filtreerimissüsteemina, mis püüab ennustada ja näidata objekte, mida kasutaja soovib. osta. Süvaõppe tehnoloogiat kasutatakse ka meditsiinivaldkonnas. See aitab vähiuurijatel vähirakke automaatselt tuvastada ja kujutab endast seega tohutut edu vähiravis.

Kõnetuvastus

Kõnetuvastustehnoloogia abil tuvastatakse kõnekeeles olevad sõnad ja fraasid ning teisendatakse need masina jaoks loetavasse vormingusse. Kuigi mõned programmid suudavad tuvastada vaid piiratud arvu fraase, suudavad mõned keerukamad kõnetuvastusprogrammid loomulikku kõnet dešifreerida.

Kas on takistusi, mida ületada?

Kuigi kõnetuvastustehnoloogia on mugav, ei lähe see alati tõrgeteta ja sellel on siiski mõned probleemid, mida tuleb lahendada, kuna seda arendatakse pidevalt. Tekkida võivad probleemid võivad muu hulgas olla järgmised: salvestuse kvaliteet võib olla ebapiisav, taustal võib esineda müra, mis raskendab kõnelejast arusaamist, samuti võib kõnelejal olla väga tugev aktsent või dialekt (kas kuulnud kunagi Geordie murret?) jne.

Kõnetuvastus on päris palju arenenud, kuid täiuslikkusest pole see veel kaugel. Kõik ei seisne ainult sõnades, masin ei suuda siiski teha paljusid asju, mida inimesed suudavad: nad ei suuda lugeda kehakeelt ega tuvastada kellegi hääle sarkastilist tooni. Inimesed ei häälda sageli iga sõna õigesti ja kipuvad mõnda sõna lühendama. Näiteks kiirelt ja mitteametlikult rääkides hääldavad inglise keelt emakeelena kõnelevad inimesed sageli "lähen" nagu "gonna". Kõik eelnev põhjustab masinatele takistusi, mida nad üritavad ületada, kuid nende ees on veel pikk tee. Oluline on rõhutada, et nendele spetsiifilistele algoritmidele suunatakse üha rohkem andmeid; väljakutsed näivad vähenevat. Automaatse kõnetuvastuse tulevik näib olevat helge.

Häälpõhised kasutajaliidesed muutuvad majapidamistes üha kättesaadavamaks ja populaarsemaks. Sellest võib isegi saada tehnoloogia järgmine platvorm.

Gglot pakub automaatset kõnetuvastust automatiseeritud transkriptsiooniteenuste kujul – teisendame kõned tekstiks. Meie teenust on lihtne kasutada, see ei lähe teile palju maksma ja tehakse kiiresti!