Šta je zapravo prepoznavanje govora?
Prepoznavanje govora
Šta trebate znati o prepoznavanju govora
Kada govorimo o prepoznavanju govora, obično mislimo na softver koji ima mogućnost da prepozna izgovorenu riječ i da je zapiše u program tako da na kraju imate sve što je izgovoreno u pisanom obliku. Često se naziva i „govor u tekst“. U početku je taj softver imao vrlo ograničene mogućnosti, tako da ste mogli konvertovati samo ograničen broj fraza. Vremenom se tehnologija koja stoji iza softvera za prepoznavanje govora dosta razvila i sada je mnogo sofisticiranija, tako da može prepoznati različite jezike, pa čak i različite akcente. Ali, naravno, još uvijek ima posla koji treba uraditi na ovom polju.
Također je važno primijetiti da prepoznavanje govora nije isto što i prepoznavanje glasa, iako ponekad ljudi koriste dva termina za istu stvar. Prepoznavanje glasa se koristi za identifikaciju osobe koja govori, a ne za bilježenje onoga što je rečeno.
Kratka istorija prepoznavanja govora i srodne tehnologije
U ovom članku ćemo ukratko objasniti povijest i tehnologiju koja stoji iza uspona prepoznavanja govora.
Još od početka digitalnog doba, ljudi su imali potrebu da nekako mogu komunicirati sa mašinama. Nakon što je izumljena prva vrsta digitalnog kompjutera, brojni naučnici i inženjeri su na razne načine pokušavali da nekako implementiraju prepoznavanje govora u ovaj proces. Presudna godina ovog procesa bila je 1962., kada je IBM otkrio Shoebox, osnovnu mašinu za prepoznavanje govora koja je bila u stanju da radi jednostavne matematičke proračune. Ako je korisnik ovog proto-računara govorio u mikrofon, ova mašina je mogla prepoznati do šest kontrolnih riječi poput „plus“ ili „minus“. Vremenom se tehnologija koja stoji iza ovoga razvila i danas je vrlo uobičajena karakteristika interakcije sa računarima putem glasa. Postoje mnogi poznati motori za prepoznavanje govora poput Siri ili Alexa. Važno je napomenuti da ovi uređaji vođeni glasom ovise o umjetnoj inteligenciji (AI) i strojnom učenju.
Kada se spomene umjetna inteligencija (AI), možda zvuči kao nešto iz naučnofantastičnog filma, ali istina je da u današnje vrijeme AI igra veliku ulogu u našem svijetu. Zapravo, AI je već vrlo prisutan u našem svakodnevnom životu, budući da ga mnogi programi i aplikacije već koriste. Ali to je bila naučna fantastika početkom 20. veka, kada se taj termin pojavio. Krajem 1950. koncepti AI su postali istaknutiji i bili su u fokusu interesovanja mnogih naučnika i filozofa. U to vrijeme, vrlo ambiciozni britanski matematičar po imenu Alan Turing iznio je prijedlog da mašine mogu samostalno rješavati probleme i donositi odluke, na osnovu unosa dostupnih informacija. Problem je bio u tome što kompjuteri još nisu imali mogućnost memorisanja tih podataka, što je ključni korak za razvoj vještačke inteligencije. Sve što su tada mogli da urade bilo je da izvršavaju jednostavne komande.
Drugo važno ime u razvoju AI je John McCarthy, koji je prvi skovao sam pojam "vještačka inteligencija". McCarthy je izjavio da je AI: „nauka i inženjering stvaranja inteligentnih mašina“. Ova definicija je izašla na vidjelo na ključnoj konferenciji na Dartmouth koledžu 1956. Od tada je AI počela da se razvija mahnitom tempom.
Danas je umjetna inteligencija u različitim oblicima prisutna posvuda. Porastao je do masovnog usvajanja, uglavnom zbog povećanja ukupne količine podataka koji se svakodnevno razmjenjuju širom svijeta. Koristi se u naprednim algoritmima i doveo je do poboljšanja memorije i računarske snage. AI se koristi u mnoge svrhe, na primjer za prevođenje, transkripciju, govor, prepoznavanje lica i objekata, analizu medicinskih slika, obradu prirodnih jezika, razne filtere društvenih mreža i tako dalje. Sjećate se onog šahovskog meča između velemajstora Garija Kasparova i Deep Blue šahovske AI?
Mašinsko učenje je još jedna vrlo važna primjena umjetne inteligencije. Ukratko, odnosi se na sve sisteme koji imaju mogućnost učenja i usavršavanja iz baze podataka vlastitog iskustva. Ovo radi kroz prepoznavanje obrazaca. Da bi sistem to uradio, mora biti u stanju da bude obučen. Algoritam sistema prima ulaz velike količine podataka i u jednom trenutku postaje u stanju da identifikuje obrasce iz tih podataka. Krajnji cilj ovog procesa je omogućiti ovim kompjuterskim sistemima da uče samostalno, bez potrebe za bilo kakvom ljudskom intervencijom ili pomoći.
Još jedna stvar koju je vrlo važno spomenuti uz strojno učenje je duboko učenje. Jedan od najvažnijih alata u procesu dubokog učenja su takozvane umjetne neuronske mreže. To su napredni algoritmi, slični strukturi i funkciji ljudskog mozga. Međutim, oni su statični i simbolični, za razliku od biološkog mozga koji je plastičan i više analogan. Ukratko, ovo duboko učenje je veoma specijalizovan način mašinskog učenja, prvenstveno zasnovan na veštačkim neuronskim mrežama. Cilj dubokog učenja je da usko replicira procese ljudskog učenja. Tehnologija dubokog učenja je veoma korisna i igra važnu ulogu u raznim uređajima kojima se upravlja glasom – tabletima, televizorima, pametnim telefonima, frižiderima itd. Umjetne neuronske mreže se također koriste kao svojevrsni sistem filtriranja koji ima za cilj da predvidi stavke koje će korisnik kupiti u budućnosti. Tehnologija dubokog učenja se takođe veoma široko koristi u medicinskom polju. Veoma je važan istraživačima raka, jer pomaže u automatskom otkrivanju ćelija raka.
Sada ćemo se vratiti na prepoznavanje govora. Ova tehnologija, kao što smo već spomenuli, ima za cilj da identifikuje različite reči i fraze govornog jezika. Nakon toga ih konvertuje u format koji mašina može da čita. Osnovni programi identificiraju samo mali broj ključnih fraza, ali neki napredniji softveri za prepoznavanje govora mogu dešifrirati sve vrste prirodnog govora. Tehnologija prepoznavanja govora je zgodna u većini slučajeva, ali ponekad nailazi na probleme kada kvalitet snimka nije dovoljno dobar ili kada postoje pozadinski šumovi koji otežavaju pravilno razumijevanje govornika. I dalje može naići na neke probleme kada govornik ima jako jak naglasak ili dijalekt. Prepoznavanje govora se stalno razvija, ali još uvijek nije sasvim savršeno. Nije sve u riječima, mašine još uvijek nisu sposobne za mnoge stvari koje ljudi mogu, na primjer nisu u stanju da dešifruju govor tijela ili ton nečijeg glasa. Međutim, kako se ovim naprednim algoritmima dešifruje sve više podataka, čini se da neki od ovih izazova smanjuju poteškoće. Ko zna šta donosi budućnost? Teško je predvidjeti gdje će završiti prepoznavanje govora. Na primjer, Google već ima dosta uspjeha u implementaciji softvera za prepoznavanje govora u Google Translate motorima, a mašine se stalno uče i razvijaju. Možda će jednog dana u potpunosti zamijeniti ljudske prevodioce. Ili možda ne, svakodnevne govorne situacije su previše složene za bilo koju vrstu mašine koja nije u stanju da pročita dubinu ljudske duše.
Kada koristiti prepoznavanje govora?
Danas skoro svako ima pametni telefon ili tablet. Prepoznavanje govora je uobičajena karakteristika ovih uređaja. Koriste se za pretvaranje govora osobe u akciju. Ako želite da pozovete svoju baku, dovoljno je da komandujete „pozovi baku“ i vaš pametni telefon već bira broj, a da vi ne morate da kucate preko liste kontakata. Ovo je prepoznavanje govora. Još jedan dobar primjer za to je Alexa ili Siri. Oni takođe imaju ovu funkciju čvrsto ožičenu u svom sistemu. Google vam takođe daje mogućnost da bilo šta tražite glasom, bez unosa bilo čega.
Možda vas sada zanima kako sve ovo funkcionira. Pa, da bi to funkcioniralo, senzori poput mikrofona moraju biti ugrađeni u softver tako da se zvučni valovi izgovorenih riječi prepoznaju, analiziraju i pretvaraju u digitalni format. Digitalne informacije se tada moraju uporediti s drugim informacijama koje su pohranjene u nekoj vrsti spremišta riječi i izraza. Kada postoji podudaranje, softver može prepoznati naredbu i djelovati u skladu s tim.
Još jedna stvar koju treba spomenuti u ovom trenutku je tzv. WER (word error rate). Ovo je formula u kojoj dijelite broj greške sa ukupnim brojem riječi. Dakle, jednostavnije rečeno, to ima mnogo veze sa preciznošću. Cilj je naravno imati nizak WER, jer to znači da je transkripcija izgovorene riječi tačnija.
Prepoznavanje govora je sada traženo kao i uvijek. Ako također trebate pretvoriti izgovorenu riječ iz recimo snimljene audio datoteke u tekst, možete se obratiti Gglotu. Mi smo pružatelj usluga transkripcije koji nudi precizne transkripcije po razumnoj cijeni. Stoga, ne ustručavajte se kontaktirati putem naše web stranice prilagođene korisnicima.