Uloga umjetne inteligencije i strojnog učenja u prepoznavanju govora

Uloga umjetne inteligencije i strojnog učenja u prepoznavanju govora

Dugo su ljudi željeli da mogu razgovarati sa mašinama. Od kada su počeli da prave kompjutere, naučnici i inženjeri su pokušavali da u proces ugrade prepoznavanje govora. Godine 1962. IBM je predstavio Shoebox, mašinu za prepoznavanje govora koja je mogla izvršiti jednostavne matematičke proračune. Ovaj inovativni uređaj prepoznao je i odgovorio na 16 izgovorenih riječi, uključujući deset cifara od “0” do “9”. Kada su izgovoreni broj i komandne reči kao što su „plus“, „minus“ i „ukupno“, Shoebox je dao instrukcije mašini za sabiranje da izračuna i odštampa odgovore na jednostavne aritmetičke probleme. Kutija za cipele se upravljala govorom u mikrofon, koji je pretvarao glasovne zvukove u električne impulse. Mjerni krug je klasificirao ove impulse prema različitim vrstama zvukova i aktivirao priključenu mašinu za sabiranje putem relejnog sistema.

Vremenom se ova tehnologija razvila i danas mnogi od nas rutinski komuniciraju sa našim računarima putem glasa. Najpopularniji glasovni asistenti danas su Alexa od Amazona, Siri od Applea, Google Assistant i Cortana od Microsofta. Ovi asistenti mogu obavljati zadatke ili usluge za pojedinca na osnovu naredbi ili pitanja. Oni su u stanju da tumače ljudski govor i reaguju putem sintetizovanih glasova. Korisnici mogu postavljati pitanja svojim pomoćnicima, kontrolirati uređaje za kućnu automatizaciju i reprodukciju medija putem glasa, te upravljati drugim osnovnim zadacima kao što su e-pošta, liste obaveza i kalendari s usmenim naredbama. Što više koristimo ove glasovne uređaje, to više postajemo zavisi od veštačke inteligencije (AI) i mašinskog učenja.

Umjetna inteligencija (AI)

1

Kada kažete umjetna inteligencija (AI), mnogi ljudi mogu pomisliti da govorite o naučnoj fantastici, iako je umjetna inteligencija jako ukorijenjena u naš svakodnevni život. U stvari, tako je već decenijama. Ali istina je da je naučna fantastika na početku 20. veka upoznala javnost sa veštački inteligentnim robotima nalik ljudima. U 50-im godinama, koncepti AI su sve više dolazili u fokus interesovanja naučnika i filozofa. U to vrijeme mladi britanski matematičar Alan Turing sugerirao je da ne postoji razlog zašto mašine ne bi mogle (baš kao ljudi) rješavati probleme i donositi odluke na osnovu dostupnih informacija. Ali u to vrijeme kompjuteri nisu imali mogućnost pamćenja što je ključno za inteligenciju. Sve što su radili je izvršavanje naredbi. Ali ipak, Alan Turing je bio taj koji je uspostavio osnovni cilj i viziju umjetne inteligencije.

Široko poznat kao otac AI je John McCarthy koji je skovao termin umjetna inteligencija . Za njega je veštačka inteligencija bila: „nauka i inženjering za pravljenje inteligentnih mašina“. Ova definicija je predstavljena na konferenciji na Dartmouth koledžu 1956. godine i naznačila je početak istraživanja AI. Od tada je AI procvjetala.

U savremenom svijetu umjetna inteligencija je sveprisutna. Postalo je popularnije zahvaljujući povećanju količine podataka, naprednim algoritmima i poboljšanjima u računarskoj snazi i skladištenju. Uglavnom je AI aplikacija povezana s intelektualnim zadacima. Koristimo AI za prevođenje, prepoznavanje objekata, lica i govora, detekciju tema, analizu medicinske slike, obradu prirodnog jezika, filtriranje društvenih mreža, igranje šaha itd.

Mašinsko učenje

Mašinsko učenje je primjena umjetne inteligencije i odnosi se na sisteme koji imaju mogućnost poboljšanja iz vlastitog iskustva. Ovdje je najvažnije da sistem mora znati prepoznati obrasce. Da bi to mogao da uradi sistem treba da bude obučen: algoritam hrani velike količine podataka tako da je u nekom trenutku u stanju da identifikuje obrasce. Cilj je omogućiti kompjuterima da uče automatski bez ljudske intervencije ili pomoći.

Kada govorimo o mašinskom učenju, važno je spomenuti duboko učenje. Počnimo tako što ćemo reći da su jedan od glavnih alata koji se koriste u dubokom učenju umjetne neuronske mreže. To su algoritmi koji su inspirisani strukturom i funkcijom mozga, iako imaju tendenciju da budu statični i simbolični, a ne plastični i analogni kao biološki mozak. Dakle, duboko učenje je specijalizovani oblik mašinskog učenja baziran na veštačkoj neuronskoj mreži čiji je cilj da replicira način na koji ljudi uče i ovo služi kao odličan alat za pronalaženje obrazaca koji su previše brojni da bi programer mogao da uči mašinu. U posljednjih nekoliko godina mnogo se pričalo o automobilima bez vozača i kako bi oni mogli promijeniti naše živote. Tehnologija dubokog učenja je ključna ovdje, jer smanjuje nesreće tako što omogućava automobilu da razlikuje pješaka od vatrogasnog hidranta ili da prepozna crveno svjetlo. Tehnologija dubokog učenja također igra glavnu ulogu u upravljanju glasom u uređajima poput tableta, telefona, frižidera, televizora itd. Kompanije za e-trgovinu često koriste umjetne neuronske mreže kao sistem za filtriranje koji pokušava predvidjeti i pokazati stavke koje bi korisnik želio kupiti. Tehnologija dubokog učenja se također koristi u medicinskom polju. Pomaže istraživačima raka da automatski otkriju ćelije raka i tako predstavlja ogroman napredak u liječenju raka.

Prepoznavanje govora

Tehnologija prepoznavanja govora služi za prepoznavanje riječi i fraza iz govornog jezika i njihovo pretvaranje u čitljiv format za mašinu. Dok neki programi mogu identificirati samo ograničen broj fraza, neki sofisticiraniji programi za prepoznavanje govora mogu dešifrirati prirodni govor.

Postoje li prepreke koje treba savladati?

Iako je zgodna, tehnologija prepoznavanja govora ne ide uvijek glatko i još uvijek ima nekoliko problema koje treba riješiti jer se kontinuirano razvija. Problemi koji se mogu pojaviti mogu uključivati, između ostalog, sljedeće: kvalitet snimka može biti neadekvatan, mogu postojati šumovi u pozadini koji otežavaju razumijevanje govornika, također govornik može imati jako jak naglasak ili dijalekt (da li ste jeste li ikada čuli Geordie dijalekt?), itd.

Prepoznavanje govora se dosta razvilo, ali je još uvijek daleko od savršenog. Nije sve samo u riječima, mašina još uvijek ne može učiniti mnogo stvari koje ljudi mogu: ne mogu pročitati govor tijela ili prepoznati sarkastičan ton u nečijem glasu. Ljudi često ne izgovaraju svaku riječ na pravi način i skloni su skraćivanju nekih riječi. Na primjer, kada govore brzo i neformalno, izvorni govornici engleskog često izgovaraju "going to" kao "gonna". Sve navedeno stvara prepreke mašinama koje pokušavaju da savladaju, ali je pred njima još dug put. Važno je naglasiti da se tim specifičnim algoritmima dovodi sve više i više podataka; izgleda da se izazovi smanjuju. Čini se da je budućnost automatskog prepoznavanja govora svijetla.

Korisnički interfejsi sa glasovnim napajanjem postaju sve dostupniji i popularniji u domaćinstvima. Mogla bi čak postati sljedeća platforma u tehnologiji.

Gglot nudi automatsko prepoznavanje govora u obliku usluga automatske transkripcije – mi pretvaramo govore u tekst. Naša usluga je jednostavna za korištenje, neće vas puno koštati i bit će urađena brzo!