Uloga umjetne inteligencije i strojnog učenja u prepoznavanju govora

Uloga umjetne inteligencije i strojnog učenja u prepoznavanju govora

Dugo su ljudi željeli moći razgovarati sa strojevima. Otkako su počeli graditi računala, znanstvenici i inženjeri pokušavaju u proces ugraditi prepoznavanje govora. Godine 1962. IBM je predstavio Shoebox, stroj za prepoznavanje govora koji je mogao raditi jednostavne matematičke izračune. Ovaj inovativni uređaj prepoznao je i odgovorio na 16 izgovorenih riječi, uključujući deset znamenki od "0" do "9". Kad su izgovorene brojke i naredbene riječi kao što su "plus", "minus" i "ukupno", Shoebox je dao upute stroju za zbrajanje da izračuna i ispiše odgovore na jednostavne aritmetičke probleme. Kutijom za cipele upravljalo se govorom u mikrofon, koji je glasovne zvukove pretvarao u električne impulse. Mjerni krug klasificirao je te impulse prema različitim vrstama zvukova i aktivirao priključeni zbrojnik preko sustava releja.

S vremenom se ova tehnologija razvila i danas mnogi od nas rutinski komuniciraju s našim računalima glasom. Najpopularniji glasovni asistenti danas su Alexa od Amazona, Siri od Applea, Google Assistant i Cortana od Microsofta. Ovi pomoćnici mogu obavljati zadatke ili usluge za pojedinca na temelju naredbi ili pitanja. Sposobni su tumačiti ljudski govor i odgovarati putem sintetiziranih glasova. Korisnici mogu postavljati pitanja svojim pomoćnicima, upravljati uređajima za kućnu automatizaciju i reprodukcijom medija putem glasa te upravljati drugim osnovnim zadacima kao što su e-pošta, popisi obaveza i kalendari s verbalnim naredbama. Što više koristimo ove glasovne uređaje, to više postajemo ovisi o umjetnoj inteligenciji (AI) i strojnom učenju.

Umjetna inteligencija (AI)

1

Kada kažete umjetna inteligencija (AI), mnogi bi ljudi mogli pomisliti da je riječ o znanstvenoj fantastici, iako je AI itekako ukorijenjena u naš svakodnevni život. Zapravo, već desetljećima. No istina je da je početkom 20. stoljeća javnost upoznala s umjetno inteligentnim čovjekolikim robotima doista znanstvena fantastika. U 50-ima su koncepti umjetne inteligencije sve više dolazili u fokus interesa znanstvenika i filozofa. U to vrijeme mladi britanski matematičar Alan Turing sugerirao je da ne postoji razlog zašto strojevi ne bi mogli (baš kao i ljudi) rješavati probleme i donositi odluke na temelju dostupnih informacija. Ali u to vrijeme računala nisu imala mogućnost pamćenja koje je ključno za inteligenciju. Sve što su radili bilo je izvršavanje naredbi. Ali ipak, Alan Turing je bio taj koji je uspostavio temeljni cilj i viziju umjetne inteligencije.

Široko priznat kao otac umjetne inteligencije je John McCarthy koji je skovao pojam umjetna inteligencija . Za njega je umjetna inteligencija bila: "znanost i inženjering stvaranja inteligentnih strojeva". Ova je definicija predstavljena na konferenciji na Dartmouth Collegeu 1956. godine i označila je početak istraživanja umjetne inteligencije. Od tada je umjetna inteligencija procvjetala.

U modernom svijetu umjetna inteligencija je sveprisutna. Postao je popularniji zahvaljujući povećanim količinama podataka, naprednim algoritmima i poboljšanjima računalne snage i pohrane. Uglavnom je AI primjena povezana s intelektualnim zadacima. Koristimo AI za prevođenje, prepoznavanje objekata, lica i govora, otkrivanje tema, analizu medicinske slike, obradu prirodnog jezika, filtriranje društvenih mreža, igranje šaha itd.

Strojno učenje

Strojno učenje je primjena umjetne inteligencije i odnosi se na sustave koji imaju mogućnost poboljšanja iz vlastitog iskustva. Ovdje je najvažnije da sustav mora znati prepoznati obrasce. Da bi to mogao učiniti, sustav treba biti uvježban: algoritam hrani velike količine podataka tako da u nekom trenutku može identificirati obrasce. Cilj je omogućiti računalima da uče automatski bez ljudske intervencije ili pomoći.

Kada govorimo o strojnom učenju, važno je spomenuti duboko učenje. Započnimo tako što ćemo reći da su jedan od glavnih alata koji se koriste u dubokom učenju umjetne neuronske mreže. To su algoritmi koji su inspirirani strukturom i funkcijom mozga, iako teže biti statični i simbolični, a ne plastični i analogni poput biološkog mozga. Dakle, dubinsko učenje je specijalizirani oblik strojnog učenja temeljen na umjetnoj neuronskoj mreži čiji je cilj replicirati način na koji ljudi uče i to služi kao izvrstan alat za pronalaženje obrazaca koji su previše brojni da bi programer naučio stroj. Posljednjih nekoliko godina mnogo se govorilo o automobilima bez vozača i o tome kako bi mogli promijeniti naše živote. Tehnologija dubokog učenja ovdje je ključna jer smanjuje nesreće omogućujući automobilu da razlikuje pješaka od vatrogasnog hidranta ili da prepozna crveno svjetlo. Tehnologija dubokog učenja također igra glavnu ulogu u glasovnom upravljanju u uređajima kao što su tableti, telefoni, hladnjaci, televizori itd. Tvrtke za e-trgovinu često koriste umjetne neuronske mreže kao sustav filtriranja koji pokušava predvidjeti i pokazati stavke koje bi korisnik želio kupiti. Tehnologija dubokog učenja također se koristi u medicini. Pomaže istraživačima raka da automatski otkriju stanice raka i stoga predstavlja ogroman napredak u liječenju raka.

Prepoznavanje govora

Tehnologija prepoznavanja govora služi za prepoznavanje riječi i fraza iz govornog jezika i njihovo pretvaranje u čitljiv format za stroj. Dok neki programi mogu identificirati samo ograničen broj fraza, neki sofisticiraniji programi za prepoznavanje govora mogu dešifrirati prirodni govor.

Postoje li prepreke koje treba prevladati?

Iako je praktična, tehnologija prepoznavanja govora ne ide uvijek glatko i još uvijek ima nekoliko problema koje treba riješiti jer se neprestano razvija. Problemi koji se mogu pojaviti mogu uključivati između ostalog sljedeće: kvaliteta snimke može biti neadekvatna, možda postoje šumovi u pozadini koji otežavaju razumijevanje govornika, također govornik može imati jako jak naglasak ili dijalekt (jeste li Jeste li ikada čuli Geordie dijalekt?), itd.

Prepoznavanje govora dosta se razvilo, ali još je daleko od savršenog. Nije sve samo u riječima, stroj još uvijek ne može mnogo toga što ljudi mogu: ne mogu čitati govor tijela ili prepoznati sarkastičan ton u nečijem glasu. Ljudi često ne izgovaraju svaku riječ na pravi način i skloni su skraćivati neke riječi. Na primjer, kada govore brzo i neformalno, izvorni govornici engleskog često izgovaraju "going to" kao "gonna". Sve navedeno stvara prepreke strojevima koje pokušavaju savladati, ali pred njima je još dug put. Važno je naglasiti da kako se sve više i više podataka hrani tim specifičnim algoritmima; čini se da se izazovi smanjuju. Čini se da je budućnost automatiziranog prepoznavanja govora svijetla.

Glasovno pokretana korisnička sučelja postaju sve dostupnija i popularnija u kućanstvima. Mogla bi čak postati sljedeća platforma u tehnologiji.

Gglot nudi automatizirano prepoznavanje govora u obliku usluga automatizirane transkripcije – mi pretvaramo govore u tekst. Naša usluga je jednostavna za korištenje, neće vas koštati puno i bit će gotova brzo!