Mis täpselt on kõnetuvastus?

Kõnetuvastus

Mida peate teadma kõnetuvastuse kohta

Kõnetuvastusest rääkides mõeldakse tavaliselt tarkvara, millel on suutlikkus kõneldud sõna ära tunda ja programmis kirja panna, nii et lõpuks on kõik kõneldud kirjas. Seda nimetatakse sageli ka "kõnest tekstiks". Alguses olid sellel tarkvaral väga piiratud võimalused, nii et saate teisendada vaid piiratud arvu fraase. Aja jooksul on kõnetuvastustarkvara taga olev tehnoloogia palju arenenud ja nüüd on see palju keerukam, nii et suudab tuvastada erinevaid keeli ja isegi erinevaid aktsente. Aga loomulikult on selles vallas veel tööd teha.

Samuti on oluline märkida, et kõnetuvastus ei ole sama, mis hääletuvastus, kuigi mõnikord kasutavad inimesed neid kahte terminit sama asja jaoks. Hääletuvastust kasutatakse rääkiva isiku tuvastamiseks ja mitte öeldu märkimiseks.

Lühike kõnetuvastuse ja sellega seotud tehnoloogia ajalugu

Selles artiklis selgitame lühidalt kõnetuvastuse tõusu ajalugu ja tehnoloogiat.

Alates digiajastu koidikust oli inimestel tung kuidagi masinatega suhelda. Pärast esimest tüüpi digitaalse arvuti leiutamist on paljud teadlased ja insenerid proovinud mitmel viisil kõnetuvastust sellesse protsessi rakendada. Selle protsessi otsustav aasta oli 1962, mil IBM avalikustas Shoeboxi, põhilise kõnetuvastusmasina, mis suutis teha lihtsaid matemaatilisi arvutusi. Kui selle protoarvuti kasutaja rääkis mikrofoni, suutis see masin ära tunda kuni kuus juhtsõna, nagu "pluss" või "miinus". Aja jooksul arenes selle taga olev tehnoloogia ja tänapäeval on arvutitega hääle teel suhtlemine väga levinud. Seal on palju kuulsaid kõnetuvastusmootoreid, nagu Siri või Alexa. Oluline on märkida, et need häälepõhised seadmed sõltuvad tehisintellektist (AI) ja masinõppest.

Kui mainitakse tehisintellekti (AI), võib see kõlada nagu ulmefilmist, kuid tõde on see, et tänapäeval on AI-l meie maailmas suur roll. Tegelikult on AI meie igapäevaelus juba väga kohal, kuna paljud programmid ja rakendused seda juba kasutavad. Kuid see oli ulme 20. sajandi alguses, kui see termin tekkis. 1950. aasta lõpus muutusid tehisintellekti kontseptsioonid silmapaistvamaks ning olid paljude teadlaste ja filosoofide huviorbiidis. Sel ajal tuli väga ambitsioonikas Briti matemaatik Alan Turing välja ettepanekuga, et masinad suudavad lahendada probleeme ja teha otsuseid olemasoleva teabe põhjal. Probleem seisnes selles, et arvutitel ei olnud veel võimalust neid andmeid meelde jätta, mis on tehisintellekti arengus ülioluline samm. Kõik, mida nad tol ajal teha said, oli lihtsate käskude täitmine.

Teine oluline nimi tehisintellekti arendamisel on John McCarthy, kes võttis esmakordselt kasutusele termini "tehisintellekt". McCarthy väitis, et AI on "intelligentsete masinate valmistamise teadus ja tehnika". See määratlus tuli päevavalgele 1956. aastal Dartmouthi kolledžis toimunud põhjalikul konverentsil. Sellest ajast peale hakkas AI arenema meeletu kiirusega.

Tänapäeval on tehisintellekt selle erineval kujul kõikjal olemas. See on kasvanud massiliseks kasutuselevõtuks, peamiselt tänu ülemaailmsele iga päev vahetatava andmemahu suurenemisele. Seda kasutatakse täiustatud algoritmides ja see tõi kaasa salvestus- ja arvutusvõimsuse paranemise. Tehisintellekti kasutatakse mitmel otstarbel, näiteks tõlkimine, transkriptsioon, kõne, näo- ja objektituvastus, meditsiiniliste piltide analüüs, loomulike keelte töötlemine, erinevad sotsiaalvõrgustiku filtrid ja nii edasi. Mäletate seda malematši suurmeister Gari Kasparovi ja Deep Blue male-AI vahel?

Pealkirjata 7 1

Masinõpe on teine väga oluline tehisintellekti rakendus. Lühidalt öeldes viitab see kõikidele süsteemidele, millel on võimalus õppida ja täiustada oma kogemuste andmebaasi. See toimib mustrite tuvastamise kaudu. Selleks, et süsteem saaks seda teha, peab seda saama koolitada. Süsteemi algoritm võtab vastu suuri andmemahtusid ja ühel hetkel suudab ta nende andmete põhjal mustreid tuvastada. Selle protsessi lõppeesmärk on võimaldada nendel arvutisüsteemidel õppida iseseisvalt, ilma et oleks vaja inimese sekkumist või abi.

Teine asi, mida on väga oluline masinõppe kõrval mainida, on sügavõpe. Üks olulisemaid vahendeid süvaõppe protsessis on nn tehisnärvivõrgud. Need on täiustatud algoritmid, mis sarnanevad inimaju struktuuri ja funktsioonidega. Siiski on need staatilised ja sümboolsed, erinevalt bioloogilisest ajust, mis on plastiline ja rohkem analoogil põhinev. Lühidalt öeldes on see süvaõpe väga spetsiifiline masinõppe viis, mis põhineb peamiselt tehisnärvivõrkudel. Süvaõppe eesmärk on inimese õppimisprotsesse tihedalt korrata. Süvaõppe tehnoloogia on väga kasulik ning sellel on oluline roll erinevates häälega juhitavates seadmetes – tahvelarvutites, telerites, nutitelefonides, külmikutes jne. Tehisnärvivõrke kasutatakse ka omamoodi filtreerimissüsteemina, mille eesmärk on objekte ennustada. mida kasutaja tulevikus ostaks. Süvaõppe tehnoloogiat kasutatakse väga laialdaselt ka meditsiinivaldkonnas. See on vähiuurijatele väga oluline, sest aitab vähirakke automaatselt tuvastada.

Nüüd tuleme tagasi kõnetuvastuse juurde. Selle tehnoloogia, nagu me juba mainisime, eesmärk on tuvastada kõnekeele erinevaid sõnu ja fraase. Seejärel teisendab see need vormingusse, mida masin suudab lugeda. Põhiprogrammid tuvastavad vaid väikese hulga võtmefraase, kuid mõni arenenum kõnetuvastustarkvara suudab dešifreerida igasuguse loomuliku kõne. Kõnetuvastustehnoloogia on enamikul juhtudel mugav, kuid mõnikord esineb sellega probleeme, kui salvestuse kvaliteet ei ole piisavalt hea või kui esineb taustamüra, mis raskendab kõneleja õiget mõistmist. Probleeme võib tekkida ka siis, kui kõnelejal on tõesti tugev aktsent või dialekt. Kõnetuvastus areneb pidevalt, kuid siiski pole see päris täiuslik. Kõik ei sõltu sõnadest, masinad ei ole endiselt võimelised paljudeks asjadeks, mida inimene suudab, näiteks ei suuda nad lahti mõtestada kehakeelt või kellegi hääletooni. Kuid kuna need täiustatud algoritmid dešifreerivad rohkem andmeid, näib mõnede väljakutsete raskused vähenevat. Kes teab, mis tulevik toob? Kuhu kõnetuvastus välja jõuab, on raske ennustada. Näiteks Google'il on juba palju edu Google'i tõlkemootorites kõnetuvastustarkvara juurutamisel ning masin õpib ja areneb pidevalt. Võib-olla asendavad nad ühel päeval täielikult inimtõlgid. Või võib-olla mitte, igapäevased kõnesituatsioonid on liiga keerulised igasuguse masina jaoks, mis ei suuda lugeda inimhinge sügavust.

Millal kasutada kõnetuvastust?

Tänapäeval on peaaegu kõigil nutitelefon või tahvelarvuti. Kõnetuvastus on nende seadmete tavaline funktsioon. Neid kasutatakse inimese kõne muutmiseks tegudeks. Kui soovite helistada vanaemale, piisab, kui annate käsu "helista vanaemale" ja nutitelefon juba valib numbrit, ilma et peaksite kontaktiloendeid tippima. See on kõnetuvastus. Teine hea näide sellest on Alexa või Siri. Samuti on see funktsioon nende süsteemis ühendatud. Google annab teile ka võimaluse otsida kõike häälega, ilma midagi sisestamata.

Pealkirjata 8 1

Võib-olla olete nüüd uudishimulik, kuidas see kõik toimib. Et see töötaks, peavad andurid, nagu mikrofonid, olema tarkvarasse sisse ehitatud, et räägitud sõnade helilained tuvastataks, analüüsitaks ja teisendataks digitaalsesse vormingusse. Seejärel tuleb digitaalset teavet võrrelda muu teabega, mis on salvestatud mingisse sõnade ja väljendite hoidlasse. Sobivuse korral suudab tarkvara käsu ära tunda ja vastavalt tegutseda.

Veel üks asi, mida tuleb siinkohal mainida, on nn WER (sõna veamäär). See on valem, milles jagate vea numbri sõnade koguarvuga. Lihtsamalt öeldes on sellel palju pistmist täpsusega. Eesmärgiks on loomulikult madal WER, sest see tähendab, et öeldud sõna transkriptsioon on täpsem.

Kõnetuvastus on nüüd sama nõutud kui kunagi varem. Kui teil on vaja teisendada ka öeldud sõna oletame salvestatud helifailist tekstiks, võite pöörduda Ggloti poole. Oleme transkriptsiooniteenuse pakkuja, kes pakub täpseid transkriptsioone õiglase hinna eest. Nii et ärge kõhelge meie kasutajasõbraliku veebisaidi kaudu ühendust võtmast.