Kaj pravzaprav je prepoznavanje govora?

Prepoznavanje govora

Kaj morate vedeti o prepoznavanju govora

Ko govorimo o prepoznavanju govora, običajno mislimo na programsko opremo, ki ima možnost prepoznati izgovorjeno besedo in jo zapisati v program, tako da imate na koncu vse, kar je bilo izgovorjeno, v pisni obliki. Pogosto se imenuje tudi "govor v besedilo". Na začetku je imela ta programska oprema zelo omejene možnosti, tako da ste lahko pretvorili le omejeno število fraz. Sčasoma se je tehnologija za programsko opremo za prepoznavanje govora zelo razvila in je zdaj veliko bolj izpopolnjena, tako da lahko prepozna različne jezike in celo različne naglase. Seveda pa je na tem področju še vedno treba delati.

Pomembno je tudi opozoriti, da prepoznavanje govora ni isto kot prepoznavanje glasu, čeprav ljudje včasih uporabljajo oba izraza za isto stvar. Prepoznavanje glasu se uporablja za identifikacijo osebe, ki govori, in ne za beleženje povedanega.

Kratka zgodovina prepoznavanja govora in sorodne tehnologije

V tem članku bomo na kratko razložili zgodovino in tehnologijo, ki stojita za vzponom prepoznavanja govora.

Že od začetka digitalne dobe so ljudje imeli željo, da bi nekako komunicirali s stroji. Potem ko je bila izumljena prva vrsta digitalnega računalnika, so številni znanstveniki in inženirji na različne načine poskušali v ta proces nekako implementirati prepoznavanje govora. Ključno leto tega procesa je bilo leto 1962, ko je IBM razkril Shoebox, osnovni stroj za prepoznavanje govora, ki je zmogel preproste matematične izračune. Če je uporabnik tega proto-računalnika govoril v mikrofon, je ta stroj lahko prepoznal do šest kontrolnih besed, kot sta "plus" ali "minus". Sčasoma se je tehnologija za tem razvila in danes je glasovna interakcija z računalniki zelo pogosta. Obstaja veliko znanih mehanizmov za prepoznavanje govora, kot sta Siri ali Alexa. Pomembno je omeniti, da so te glasovno vodene naprave odvisne od umetne inteligence (AI) in strojnega učenja.

Ko se omenja umetna inteligenca (AI), morda zveni kot nekaj iz znanstvenofantastičnega filma, a resnica je, da ima umetna inteligenca v današnjem času veliko vlogo v našem svetu. Pravzaprav je umetna inteligenca že močno prisotna v našem vsakdanjem življenju, saj jo uporablja že veliko programov in aplikacij. Toda na začetku 20. stoletja, ko se je izraz pojavil, je bila to znanstvena fantastika. Konec leta 1950 so koncepti umetne inteligence postali bolj vidni in bili v središču zanimanja številnih znanstvenikov in filozofov. V tistem času je zelo ambiciozen britanski matematik Alan Turing prišel s predlogom, da lahko stroji sami rešujejo probleme in sprejemajo odločitve na podlagi vnosa razpoložljivih informacij. Težava je bila v tem, da računalniki še niso imeli možnosti pomnjenja teh podatkov, kar je ključen korak za razvoj umetne inteligence. Vse, kar so takrat znali narediti, je bilo izvajanje preprostih ukazov.

Drugo pomembno ime pri razvoju AI je John McCarthy, ki je prvi skoval sam izraz »umetna inteligenca«. McCarthy je izjavil, da je AI: "znanost in inženiring izdelave inteligentnih strojev". Ta definicija je prišla v javnost na temeljni konferenci na Dartmouth College leta 1956. Od takrat naprej se je AI začela razvijati z divjo hitrostjo.

Danes je umetna inteligenca v različnih oblikah prisotna povsod. Narasel je do množičnega sprejetja, predvsem zaradi povečanja skupne količine podatkov, ki se vsak dan izmenjujejo po vsem svetu. Uporablja se v naprednih algoritmih in je povzročil izboljšave v pomnilniku in računalniški moči. AI se uporablja za številne namene, na primer za prevajanje, prepisovanje, prepoznavanje govora, obraza in predmetov, analizo medicinskih slik, obdelavo naravnih jezikov, različne filtre socialnih omrežij itd. Se spomnite šahovske tekme med velemojstrom Garijem Kasparovom in Deep Blue šahovsko umetno inteligenco?

Brez naslova 7 1

Strojno učenje je še ena zelo pomembna aplikacija umetne inteligence. Skratka, nanaša se na vse sisteme, ki se lahko učijo in izboljšujejo iz podatkovne baze lastnih izkušenj. To deluje s prepoznavanjem vzorcev. Da bi sistem to naredil, ga je treba usposobiti. Algoritem sistema prejme vhod velike količine podatkov in na eni točki postane sposoben identificirati vzorce iz teh podatkov. Končni cilj tega procesa je omogočiti tem računalniškim sistemom, da se učijo neodvisno, brez potrebe po človeškem posredovanju ali pomoči.

Druga stvar, ki jo je poleg strojnega učenja zelo pomembno omeniti, je globoko učenje. Eno najpomembnejših orodij v procesu globokega učenja so tako imenovane umetne nevronske mreže. So napredni algoritmi, podobni strukturi in delovanju človeških možganov. Vendar so statični in simbolični, za razliko od bioloških možganov, ki so plastični in bolj analogni. Skratka, to globoko učenje je zelo specializiran način strojnega učenja, ki temelji predvsem na umetnih nevronskih mrežah. Cilj globokega učenja je natančno posnemati človeške učne procese. Tehnologija globokega učenja je zelo uporabna in igra pomembno vlogo pri različnih napravah, ki jih upravljate z glasom – tablicah, televizorjih, pametnih telefonih, hladilnikih itd. Umetne nevronske mreže se uporabljajo tudi kot nekakšen filtrirni sistem, ki želi predvideti predmete ki bi jih uporabnik kupil v prihodnosti. Tehnologija globokega učenja se zelo pogosto uporablja tudi na medicinskem področju. Za raziskovalce raka je zelo pomemben, saj pomaga samodejno odkrivati rakave celice.

Zdaj se bomo vrnili k prepoznavanju govora. Ta tehnologija, kot smo že omenili, je namenjena prepoznavanju različnih besed in besednih zvez govorjenega jezika. Nato jih pretvori v obliko, ki jo stroj lahko prebere. Osnovni programi prepoznajo le majhno število ključnih besednih zvez, nekatera naprednejša programska oprema za prepoznavanje govora pa lahko dešifrira vse vrste naravnega govora. Tehnologija za prepoznavanje govora je v večini primerov priročna, vendar včasih naleti na težave, ko kakovost posnetka ni dovolj dobra ali ko so v ozadju šumi, ki otežujejo pravilno razumevanje govorca. Še vedno lahko naleti na nekaj težav, ko ima govorec res močan naglas ali narečje. Prepoznavanje govora se nenehno razvija, vendar še vedno ni povsem popolno. Ni vse v besedah, stroji še vedno niso zmožni marsičesa, kar zmorejo ljudje, na primer ne zmorejo dešifrirati govorice telesa ali tona glasu nekoga. Ker pa ti napredni algoritmi dešifrirajo več podatkov, se zdi, da so nekateri od teh izzivov manj težavni. Kdo ve, kaj bo prinesla prihodnost? Težko je napovedati, kje se bo končalo prepoznavanje govora. Google je na primer že dosegel veliko uspeha pri implementaciji programske opreme za prepoznavanje govora v mehanizme Google Translate, stroji pa se nenehno učijo in razvijajo. Morda bodo nekega dne popolnoma nadomestili človeške prevajalce. Ali pa tudi ne, vsakodnevne govorne situacije so preveč zapletene za kakršen koli stroj, ki ne zna brati globine človeške duše.

Kdaj uporabiti prepoznavanje govora?

Danes ima skoraj vsakdo pametni telefon ali tablico. Prepoznavanje govora je običajna funkcija teh naprav. Uporabljajo se za pretvorbo govora osebe v dejanja. Če želite poklicati svojo babico, je dovolj, da ukažete »pokliči babico« in vaš pametni telefon že pokliče številko, ne da bi vam bilo treba tipkati po seznamih stikov. To je prepoznavanje govora. Še en dober primer tega je Alexa ali Siri. To funkcijo imajo tudi vgrajeno v svoj sistem. Google vam ponuja tudi možnost iskanja česar koli z glasom, ne da bi karkoli vnašali.

Brez naslova 8 1

Morda vas zdaj zanima, kako vse to deluje. No, da bi delovalo, je treba v programsko opremo vgraditi senzorje, kot so mikrofoni, tako da so zvočni valovi izgovorjenih besed prepoznani, analizirani in pretvorjeni v digitalno obliko. Digitalne informacije je treba nato primerjati z drugimi informacijami, ki so shranjene v nekakšnem skladišču besed in izrazov. Ko pride do ujemanja, lahko programska oprema prepozna ukaz in ustrezno ukrepa.

Še ena stvar, ki jo je treba na tem mestu omeniti, je tako imenovani WER (word error rate). To je formula, v kateri število napake delite s skupnim številom besed. Torej, poenostavljeno povedano, ima veliko opraviti z natančnostjo. Cilj je seveda nizek WER, ker to pomeni, da je prepis govorjene besede natančnejši.

Povpraševanje po prepoznavanju govora je zdaj tako veliko kot kdaj koli prej. Če morate tudi izgovorjeno besedo pretvoriti iz recimo posnete zvočne datoteke v besedilo, se lahko obrnete na Gglot. Smo ponudnik storitev prepisovanja, ki ponuja natančne prepise po pošteni ceni. Zato ne oklevajte in stopite v stik prek našega uporabniku prijaznega spletnega mesta.