Vloga umetne inteligence in strojnega učenja pri prepoznavanju govora
Vloga umetne inteligence in strojnega učenja pri prepoznavanju govora
Dolgo časa so si ljudje želeli imeti možnost govoriti s stroji. Odkar so začeli izdelovati računalnike, so znanstveniki in inženirji poskušali v proces vključiti prepoznavanje govora. Leta 1962 je IBM predstavil Shoebox, stroj za prepoznavanje govora, ki je lahko delal preproste matematične izračune. Ta inovativna naprava je prepoznala in se odzvala na 16 izgovorjenih besed, vključno z desetimi številkami od »0« do »9«. Ko so bile izgovorjene številke in ukazne besede, kot so "plus", "minus" in "total", je Shoebox naročil seštevalniku, naj izračuna in natisne odgovore na preproste aritmetične naloge. Škatlo za čevlje so upravljali z govorjenjem v mikrofon, ki je glasovne zvoke pretvoril v električne impulze. Merilno vezje je te impulze razvrstilo glede na različne vrste zvokov in preko relejnega sistema aktiviralo priključeni seštevalec.
Sčasoma se je ta tehnologija razvila in danes mnogi od nas rutinsko komunicirajo z našimi računalniki z glasom. Danes so najbolj priljubljeni glasovni pomočniki Alexa podjetja Amazon, Siri podjetja Apple, Google Assistant in Cortana podjetja Microsoft. Ti pomočniki lahko izvajajo naloge ali storitve za posameznika na podlagi ukazov ali vprašanj. Sposobni so interpretirati človeški govor in se odzvati s sintetiziranimi glasovi. Uporabniki lahko svojim pomočnikom postavljajo vprašanja, z glasom upravljajo naprave za avtomatizacijo doma in predvajanje medijev ter upravljajo druga osnovna opravila, kot so e-pošta, seznami opravil in koledarji z besednimi ukazi. Bolj kot uporabljamo te glasovno vodene naprave, bolj postajamo odvisno od umetne inteligence (AI) in strojnega učenja.
Umetna inteligenca (AI)
Ko rečete umetna inteligenca (AI), bi lahko marsikdo pomislil, da govorite o znanstveni fantastiki, čeprav je AI zelo vpeta v naše vsakdanje življenje. Pravzaprav je že desetletja. A resnici na ljubo je bila znanstvena fantastika tista, ki je v začetku 20. stoletja javnost seznanila z umetno inteligentnimi človeku podobnimi roboti. V 50. letih prejšnjega stoletja so bili koncepti AI vse bolj v središču zanimanja znanstvenikov in filozofov. Takrat je mladi britanski matematik Alan Turing predlagal, da ni razloga, zakaj stroji ne bi mogli (tako kot ljudje) reševati problemov in sprejemati odločitev na podlagi razpoložljivih informacij. Toda takrat računalniki niso imeli možnosti pomnjenja, ki je ključno za inteligenco. Vse, kar so počeli, je bilo izvrševanje ukazov. A vseeno je bil Alan Turing tisti, ki je postavil temeljni cilj in vizijo umetne inteligence.
Splošno priznan oče umetne inteligence je John McCarthy, ki je skoval izraz umetna inteligenca . Zanj je bila umetna inteligenca: "znanost in inženiring izdelave inteligentnih strojev". Ta definicija je bila predstavljena na konferenci na Dartmouth College leta 1956 in je nakazala začetek raziskav AI. Od takrat naprej je AI cvetel.
V sodobnem svetu je umetna inteligenca vseprisotna. Postal je bolj priljubljen zaradi povečanih količin podatkov, naprednih algoritmov ter izboljšav v računalniški moči in shranjevanju. Večinoma je aplikacija AI povezana z intelektualnimi nalogami. Uporabljamo AI za prevajanje, prepoznavanje predmetov, obrazov in govora, zaznavanje tem, analizo medicinskih slik, obdelavo naravnega jezika, filtriranje družbenih omrežij, igranje šaha itd.
Strojno učenje
Strojno učenje je aplikacija umetne inteligence in se nanaša na sisteme, ki se lahko izboljšujejo iz lastnih izkušenj. Najpomembnejše pri tem je, da mora sistem znati prepoznati vzorce. Da bi to lahko naredil, je treba sistem usposobiti: algoritem hrani velike količine podatkov, tako da je na neki točki sposoben prepoznati vzorce. Cilj je omogočiti računalnikom samodejno učenje brez človeškega posredovanja ali pomoči.
Ko govorimo o strojnem učenju, je pomembno omeniti globoko učenje. Začnimo z besedami, da so eno glavnih orodij, ki se uporabljajo pri globokem učenju, umetne nevronske mreže. To so algoritmi, ki se zgledujejo po strukturi in delovanju možganov, čeprav so ponavadi statični in simbolični, ne pa plastični in analogni kot biološki možgani. Globoko učenje je torej specializirana oblika strojnega učenja, ki temelji na umetni nevronski mreži, katere cilj je ponoviti način, kako se ljudje učijo, in to služi kot odlično orodje za iskanje vzorcev, ki jih je veliko preveč, da bi programer lahko naučil stroj. V zadnjih nekaj letih se je veliko govorilo o avtomobilih brez voznika in o tem, kako bi lahko spremenili naša življenja. Tehnologija globokega učenja je pri tem ključna, saj zmanjša število nesreč tako, da avtomobilu omogoči, da loči pešca od požarnega hidranta ali prepozna rdečo luč. Tehnologija globokega učenja ima tudi glavno vlogo pri glasovnem nadzoru v napravah, kot so tablice, telefoni, hladilniki, televizorji itd. Podjetja za e-trgovino pogosto uporabljajo umetna nevronska omrežja kot filtrirni sistem, ki poskuša predvideti in pokazati predmete, ki bi jih uporabnik želel kupiti. Tehnologija globokega učenja se uporablja tudi na področju medicine. Raziskovalcem raka pomaga pri avtomatskem odkrivanju rakavih celic in tako predstavlja izjemen napredek pri zdravljenju raka.
Prepoznavanje govora
Tehnologija za prepoznavanje govora služi za prepoznavanje besed in besednih zvez iz govorjenega jezika in njihovo pretvorbo v berljivo obliko za stroj. Medtem ko lahko nekateri programi prepoznajo le omejeno število fraz, lahko nekateri bolj izpopolnjeni programi za prepoznavanje govora dešifrirajo naravni govor.
Ali obstajajo ovire, ki jih je treba premagati?
Čeprav je priročna, tehnologija prepoznavanja govora ne gre vedno gladko in še vedno ima nekaj težav, ki jih je treba rešiti, saj se nenehno razvija. Težave, ki se lahko pojavijo, lahko med drugim vključujejo naslednje: kakovost posnetka je morda neustrezna, v ozadju so lahko šumi, ki otežujejo razumevanje govorca, prav tako ima govorec res močan naglas ali narečje (ali ste ste kdaj slišali narečje Geordie?), itd.
Prepoznavanje govora se je precej razvilo, vendar je še daleč od popolnosti. Ni vse le v besedah, stroj še vedno ne zmore marsičesa, kar zmorejo ljudje: ne more brati govorice telesa ali prepoznati sarkastičnega tona v glasu nekoga. Ljudje pogosto ne izgovorijo vsake besede pravilno in nekatere besede radi skrajšajo. Na primer, ko govorijo hitro in neformalno, domači govorci angleščine pogosto izgovorijo "going to" kot "gonna". Vse našteto povzroča strojem ovire, ki jih skušajo premagati, a je pred njimi še dolga pot. Pomembno je poudariti, da se vse več podatkov dovaja tem specifičnim algoritmom; zdi se, da se izzivi zmanjšujejo. Zdi se, da je prihodnost avtomatiziranega prepoznavanja govora svetla.
Glasovni uporabniški vmesniki postajajo vse bolj dostopni in priljubljeni v gospodinjstvih. Morda celo postane naslednja platforma v tehnologiji.
Gglot ponuja samodejno prepoznavanje govora v obliki storitev avtomatiziranega prepisovanja – pretvorimo govore v besedilo. Naša storitev je preprosta za uporabo, ne bo vas drago stala in bo narejena hitro!