Što je zapravo prepoznavanje govora?
Prepoznavanje govora
Što trebate znati o prepoznavanju govora
Kada govorimo o prepoznavanju govora, obično mislimo na softver koji ima mogućnost prepoznati izgovorenu riječ i zapisati je u program tako da na kraju imate sve što je izgovoreno u pisanom obliku. Često se naziva i "govor u tekst". U početku je taj softver imao vrlo ograničene mogućnosti, tako da ste mogli pretvoriti samo ograničen broj fraza. S vremenom se tehnologija koja stoji iza softvera za prepoznavanje govora dosta razvila i sada je mnogo sofisticiranija, tako da može prepoznati različite jezike, pa čak i različite naglaske. No, naravno, još uvijek ima posla koji treba obaviti na ovom polju.
Također je važno primijetiti da prepoznavanje govora nije isto što i prepoznavanje glasa, iako ljudi ponekad koriste ta dva pojma za istu stvar. Prepoznavanje glasa služi za identifikaciju osobe koja govori, a ne za bilježenje onoga što je rečeno.
Kratka povijest prepoznavanja govora i povezane tehnologije
U ovom ćemo članku ukratko objasniti povijest i tehnologiju iza uspona prepoznavanja govora.
Još od osvita digitalnog doba ljudi su imali potrebu da na neki način mogu komunicirati sa strojevima. Nakon što je izumljena prva vrsta digitalnog računala, brojni znanstvenici i inženjeri pokušavali su na razne načine nekako implementirati prepoznavanje govora u ovaj proces. Ključna godina ovog procesa bila je 1962., kada je IBM otkrio Shoebox, osnovni stroj za prepoznavanje govora koji je mogao raditi jednostavne matematičke izračune. Ako je korisnik ovog proto-računala govorio u mikrofon, ovaj je stroj mogao prepoznati do šest kontrolnih riječi poput "plus" ili "minus". S vremenom se razvila tehnologija koja stoji iza ovoga i danas je vrlo uobičajena značajka glasovne interakcije s računalima. Postoje mnogi poznati mehanizmi za prepoznavanje govora poput Siri ili Alexa. Važno je napomenuti da ovi glasovno upravljani uređaji ovise o umjetnoj inteligenciji (AI) i strojnom učenju.
Kada se spomene umjetna inteligencija (AI), moglo bi zvučati kao nešto iz znanstvenofantastičnog filma, ali istina je da u današnje vrijeme AI igra veliku ulogu u našem svijetu. Zapravo, umjetna inteligencija već je prisutna u našem svakodnevnom životu, budući da je mnogi programi i aplikacije već koriste. No to je početkom 20. stoljeća, kada se izraz pojavio, bila znanstvena fantastika. U kasnim 1950-im koncepti umjetne inteligencije postali su istaknutiji i bili su u središtu interesa mnogih znanstvenika i filozofa. U to je vrijeme vrlo ambiciozni britanski matematičar Alan Turing iznio pretpostavku da strojevi mogu sami rješavati probleme i donositi odluke na temelju unosa dostupnih informacija. Problem je bio u tome što računala još nisu imala mogućnost memoriranja tih podataka, što je ključni korak za razvoj umjetne inteligencije. Sve što su tada mogli bilo je izvršavati jednostavne naredbe.
Još jedno važno ime u razvoju umjetne inteligencije je John McCarthy, koji je prvi skovao sam pojam “umjetna inteligencija”. McCarthy je izjavio da je AI: "znanost i inženjering stvaranja inteligentnih strojeva". Ova je definicija izašla na vidjelo na temeljnoj konferenciji na Dartmouth Collegeu 1956. Od tada se umjetna inteligencija počela razvijati bjesomučnim tempom.
Danas je umjetna inteligencija u raznim oblicima prisutna posvuda. Došao je do masovne primjene, uglavnom zbog povećanja ukupne količine podataka koji se svakodnevno razmjenjuju širom svijeta. Koristi se u naprednim algoritmima i doveo je do poboljšanja pohrane i računalne snage. AI se koristi u mnoge svrhe, na primjer za prevođenje, transkripciju, prepoznavanje govora, lica i predmeta, analizu medicinskih slika, obradu prirodnih jezika, razne filtere društvenih mreža i tako dalje. Sjećate se onog šahovskog meča između velemajstora Garija Kasparova i Deep Blue šahovske umjetne inteligencije?
Strojno učenje još je jedna vrlo važna primjena umjetne inteligencije. Ukratko, odnosi se na sve sustave koji imaju sposobnost učenja i poboljšanja iz baze podataka vlastitog iskustva. Ovo funkcionira kroz prepoznavanje uzoraka. Da bi sustav to učinio, mora biti osposobljen. Algoritam sustava prima na ulaz velike količine podataka iu jednom trenutku postaje sposoban identificirati obrasce iz tih podataka. Krajnji cilj ovog procesa je omogućiti ovim računalnim sustavima samostalno učenje, bez potrebe za bilo kakvom ljudskom intervencijom ili pomoći.
Još jedna stvar koju je vrlo važno spomenuti uz strojno učenje je duboko učenje. Jedan od najvažnijih alata u procesu dubokog učenja su tzv. umjetne neuronske mreže. Oni su napredni algoritmi, slični strukturi i funkciji ljudskog mozga. Međutim, oni su statični i simbolični, za razliku od biološkog mozga koji je plastičan i više analogan. Ukratko, ovo dubinsko učenje je vrlo specijalizirani način strojnog učenja, prvenstveno temeljen na umjetnim neuronskim mrežama. Cilj dubinskog učenja je blisko kopiranje ljudskih procesa učenja. Tehnologija dubokog učenja vrlo je korisna, a igra važnu ulogu u raznim uređajima kojima se upravlja glasom – tabletima, televizorima, pametnim telefonima, hladnjacima itd. Umjetne neuronske mreže također se koriste kao neka vrsta sustava filtriranja koji ima za cilj predvidjeti stavke koje bi korisnik kupio u budućnosti. Tehnologija dubokog učenja također se vrlo široko koristi u području medicine. Vrlo je važan istraživačima raka jer pomaže u automatskom otkrivanju stanica raka.
Sada ćemo se vratiti na prepoznavanje govora. Ova tehnologija, kao što smo već spomenuli, ima za cilj identificirati različite riječi i izraze govornog jezika. Nakon toga ih pretvara u format koji stroj može čitati. Osnovni programi identificiraju samo mali broj ključnih fraza, ali neki napredniji softveri za prepoznavanje govora mogu dešifrirati sve vrste prirodnog govora. Tehnologija prepoznavanja govora je prikladna u većini slučajeva, ali ponekad nailazi na probleme kada kvaliteta snimke nije dovoljno dobra ili kada postoje pozadinski šumovi koji otežavaju ispravno razumijevanje govornika. Također bi moglo naići na neke probleme kada govornik ima jako jak naglasak ili dijalekt. Prepoznavanje govora neprestano se razvija, ali još uvijek nije sasvim savršeno. Nije sve u riječima, strojevi još uvijek nisu sposobni za mnoge stvari koje ljudi mogu, na primjer, nisu sposobni dešifrirati govor tijela ili ton nečijeg glasa. Međutim, kako ovi napredni algoritmi dešifriraju sve više podataka, čini se da se neki od ovih izazova smanjuju. Tko zna što će budućnost donijeti? Teško je predvidjeti gdje će prepoznavanje govora završiti. Na primjer, Google već ima puno uspjeha u implementaciji softvera za prepoznavanje govora u Google Translate motore, a stroj neprestano uči i razvija se. Možda će jednog dana potpuno zamijeniti ljudske prevoditelje. Ili možda ne, svakodnevne govorne situacije su presložene za bilo kakav stroj koji nije u stanju pročitati dubinu ljudske duše.
Kada koristiti prepoznavanje govora?
Danas gotovo svi imaju pametni telefon ili tablet. Prepoznavanje govora uobičajena je značajka u tim uređajima. Koriste se za pretvaranje govora osobe u akciju. Ako želite nazvati svoju baku, dovoljno je da naredite “nazovi baku” i vaš pametni telefon već bira broj bez potrebe da tipkate po svojim listama kontakata. Ovo je prepoznavanje govora. Još jedan dobar primjer toga je Alexa ili Siri. Oni također imaju ovu značajku ugrađenu u svoj sustav. Google vam također daje opciju pretraživanja bilo čega glasom, bez upisivanja bilo čega.
Možda vas sada zanima kako sve ovo funkcionira. Pa, da bi to funkcioniralo, senzori poput mikrofona moraju biti ugrađeni u softver kako bi se zvučni valovi izgovorenih riječi prepoznali, analizirali i pretvorili u digitalni format. Digitalne informacije tada se moraju usporediti s drugim informacijama koje su pohranjene u nekoj vrsti spremišta riječi i izraza. Kada postoji podudaranje, softver može prepoznati naredbu i djelovati u skladu s njom.
Još jedna stvar koju treba spomenuti u ovom trenutku je takozvani WER (word error rate). Ovo je formula u kojoj broj pogreške dijelite s ukupnim brojem riječi. Dakle, pojednostavljeno rečeno, to ima puno veze s točnošću. Cilj je naravno imati nizak WER, jer to znači da je transkripcija izgovorene riječi točnija.
Prepoznavanje govora sada je traženo kao i prije. Ako također trebate pretvoriti izgovorenu riječ iz, recimo, snimljene audio datoteke u tekst, možete se obratiti Gglotu. Mi smo pružatelj usluga prijepisa koji nudi točne prijepise po poštenoj cijeni. Stoga, nemojte se ustručavati stupiti u kontakt putem naše web stranice prilagođene korisnicima.