Kas tiksliai yra kalbos atpažinimas?
Kalbos atpažinimas
Ką reikia žinoti apie kalbos atpažinimą
Kai kalbame apie kalbos atpažinimą, paprastai turime omenyje programinę įrangą, kuri turi galimybę atpažinti ištartą žodį ir užrašyti jį programoje, taigi galų gale turite viską, kas buvo pasakyta rašytiniu formatu. Jis taip pat dažnai vadinamas „kalba į tekstą“. Iš pradžių ta programinė įranga turėjo labai ribotas galimybes, todėl galėjote konvertuoti tik ribotą skaičių frazių. Laikui bėgant kalbos atpažinimo programinės įrangos technologija labai išsivystė ir dabar yra daug sudėtingesnė, todėl gali atpažinti įvairias kalbas ir net skirtingus akcentus. Tačiau, žinoma, šioje srityje dar reikia nuveikti.
Taip pat svarbu pastebėti, kad kalbos atpažinimas nėra tas pats, kas balso atpažinimas, nors kartais žmonės vartoja du terminus tam pačiam dalykui. Balso atpažinimas naudojamas kalbančiam asmeniui atpažinti, o ne atkreipti dėmesį į tai, kas buvo pasakyta.
Trumpa kalbos atpažinimo ir susijusių technologijų istorija
Šiame straipsnyje trumpai paaiškinsime kalbos atpažinimo atsiradimo istoriją ir technologijas.
Nuo pat skaitmeninio amžiaus aušros žmonės troško kažkaip bendrauti su mašinomis. Po to, kai buvo išrastas pirmasis skaitmeninis kompiuteris, daugelis mokslininkų ir inžinierių bandė įvairiais būdais kažkaip pritaikyti kalbos atpažinimą šiame procese. Svarbūs šio proceso metai buvo 1962 m., kai IBM pristatė „Shoebox“ – pagrindinį kalbos atpažinimo įrenginį, galintį atlikti paprastus matematinius skaičiavimus. Jei šio proto kompiuterio vartotojas kalbėjo į mikrofoną, šis aparatas galėjo atpažinti iki šešių valdymo žodžių, tokių kaip „pliusas“ arba „minusas“. Laikui bėgant, šios technologijos tobulėjo ir šiandien labai įprasta bendrauti su kompiuteriais balsu. Yra daug žinomų kalbos atpažinimo variklių, tokių kaip „Siri“ ar „Alexa“. Svarbu pažymėti, kad šie balsu valdomi įrenginiai priklauso nuo dirbtinio intelekto (AI) ir mašininio mokymosi.
Kai minimas dirbtinis intelektas (AI), tai gali atrodyti kaip iš mokslinės fantastikos filmų, tačiau tiesa ta, kad šiais laikais dirbtinis intelektas vaidina svarbų vaidmenį mūsų pasaulyje. Tiesą sakant, dirbtinis intelektas jau labai paplitęs mūsų kasdieniame gyvenime, nes daugelis programų ir programų jį jau naudoja. Tačiau tai buvo mokslinė fantastika XX amžiaus pradžioje, kai atsirado šis terminas. 1950 m. pabaigoje dirbtinio intelekto sąvokos tapo ryškesnės ir buvo daugelio mokslininkų ir filosofų dėmesio centre. Tuo metu labai ambicingas britų matematikas Alanas Turingas pateikė pasiūlymą, kad mašinos gali pačios išspręsti problemas ir priimti sprendimus, remdamosi turimos informacijos įvestimi. Problema ta, kad kompiuteriai dar neturėjo galimybės įsiminti tų duomenų, o tai yra esminis žingsnis kuriant dirbtinį intelektą. Viskas, ką jie tada galėjo padaryti, buvo vykdyti paprastas komandas.
Kitas svarbus vardas kuriant AI yra Johnas McCarthy, kuris pirmasis sukūrė patį terminą „dirbtinis intelektas“. McCarthy teigė, kad dirbtinis intelektas yra: „išmaniųjų mašinų gamybos mokslas ir inžinerija“. Šis apibrėžimas išryškėjo esminėje konferencijoje Dartmuto koledže 1956 m. Nuo tada dirbtinis intelektas pradėjo vystytis pašėlusiais tempais.
Šiandien dirbtinis intelektas įvairiomis formomis yra visur. Jis išaugo iki masinio pritaikymo, daugiausia dėl padidėjusio bendro duomenų, kuriais kasdien keičiamasi visame pasaulyje, apimties. Jis naudojamas pažangiuose algoritmuose ir pagerino saugojimo ir skaičiavimo galią. AI naudojamas daugeliui tikslų, pavyzdžiui, vertimui, transkripcijai, kalbai, veido ir objektų atpažinimui, medicininių vaizdų analizei, natūralių kalbų apdorojimui, įvairiems socialinių tinklų filtrams ir pan. Prisimenate šachmatų rungtynes tarp didmeistrio Gari Kasparovo ir Deep Blue šachmatų AI?
Mašinų mokymasis yra dar vienas labai svarbus dirbtinio intelekto pritaikymas. Trumpai tariant, tai reiškia bet kokias sistemas, kurios turi galimybę mokytis ir tobulėti iš savo patirties duomenų bazės. Tai veikia atpažįstant modelius. Kad sistema tai padarytų, ji turi būti apmokyta. Sistemos algoritmas gauna didelius duomenų kiekius ir vienu metu iš tų duomenų gali atpažinti šablonus. Galutinis šio proceso tikslas – leisti šioms kompiuterinėms sistemoms mokytis savarankiškai, be jokio žmogaus įsikišimo ar pagalbos.
Kitas dalykas, kurį labai svarbu paminėti šalia mašininio mokymosi, yra gilus mokymasis. Viena iš svarbiausių įrankių gilaus mokymosi procese yra vadinamieji dirbtiniai neuroniniai tinklai. Tai pažangūs algoritmai, panašūs į žmogaus smegenų struktūrą ir funkcijas. Tačiau jie yra statiški ir simboliniai, skirtingai nei biologinės smegenys, kurios yra plastinės ir labiau pagrįstos analogais. Trumpai tariant, šis gilus mokymasis yra labai specializuotas mašininio mokymosi būdas, visų pirma pagrįstas dirbtiniais neuroniniais tinklais. Gilaus mokymosi tikslas yra glaudžiai atkartoti žmogaus mokymosi procesus. Giluminio mokymosi technologija yra labai naudinga, ji atlieka svarbų vaidmenį įvairiuose balsu valdomuose įrenginiuose – planšetiniuose kompiuteriuose, televizoriuose, išmaniuosiuose telefonuose, šaldytuvuose ir kt. Dirbtiniai neuroniniai tinklai taip pat naudojami kaip tam tikra filtravimo sistema, kuria siekiama numatyti daiktus. kurias vartotojas pirks ateityje. Giluminio mokymosi technologija taip pat labai plačiai naudojama medicinos srityje. Tai labai svarbu vėžio tyrinėtojams, nes padeda automatiškai aptikti vėžines ląsteles.
Dabar grįšime prie kalbos atpažinimo. Ši technologija, kaip jau minėjome, skirta identifikuoti įvairius šnekamosios kalbos žodžius ir frazes. Vėliau jis konvertuoja juos į formatą, kurį mašina gali skaityti. Pagrindinės programos nustato tik nedidelį skaičių pagrindinių frazių, tačiau kai kuri pažangesnė kalbos atpažinimo programinė įranga gali iššifruoti visų rūšių natūralią kalbą. Kalbos atpažinimo technologija daugeliu atvejų yra patogi, tačiau kartais kyla problemų, kai įrašymo kokybė nėra pakankamai gera arba kai yra fono triukšmo, dėl kurio sunku tinkamai suprasti garsiakalbį. Taip pat gali kilti problemų, kai kalbėtojas turi tikrai stiprų akcentą arba tarmę. Kalbos atpažinimas nuolat tobulinamas, tačiau jis vis dar nėra visiškai tobulas. Ne viskas priklauso nuo žodžių, mašinos vis dar nesugeba daugelio dalykų, kuriuos gali padaryti žmonės, pavyzdžiui, jos nesugeba iššifruoti kūno kalbos ar kažkieno balso tono. Tačiau, kadangi šie pažangūs algoritmai iššifruoja daugiau duomenų, atrodo, kad kai kurie iš šių iššūkių tampa vis sudėtingesni. Kas žino, ką atneš ateitis? Sunku nuspėti, kur baigsis kalbos atpažinimas. Pavyzdžiui, „Google“ jau sėkmingai diegdama kalbos atpažinimo programinę įrangą „Google Translate“ varikliuose, o mašina nuolat mokosi ir tobulėja. Galbūt vieną dieną jie visiškai pakeis žmones vertėjus. O gal ir ne, kasdienės kalbos situacijos yra per sudėtingos bet kokiai mašinai, kuri nesugeba perskaityti žmogaus sielos gelmių.
Kada naudoti kalbos atpažinimą?
Šiuo metu beveik visi turi išmanųjį telefoną ar planšetinį kompiuterį. Kalbos atpažinimas yra įprasta šių įrenginių savybė. Jie naudojami žmogaus kalbai paversti veiksmu. Jei norite paskambinti močiutei, pakanka komandą „skambinti močiutei“ ir jūsų išmanusis telefonas jau renka numerį, jums nereikia rinkti kontaktų sąrašų. Tai kalbos atpažinimas. Kitas geras pavyzdys yra Alexa arba Siri. Jie taip pat turi šią funkciją, prijungtą prie sistemos. „Google“ taip pat suteikia galimybę bet ko ieškoti balsu, nieko neįvedant.
Galbūt dabar jums įdomu, kaip visa tai veikia. Na, o kad tai veiktų, programinėje įrangoje turi būti įmontuoti jutikliai, tokie kaip mikrofonai, kad ištartų žodžių garso bangos būtų atpažįstamos, analizuojamos ir konvertuojamos į skaitmeninį formatą. Tada skaitmeninė informacija turi būti lyginama su kita informacija, kuri yra saugoma tam tikroje žodžių ir posakių saugykloje. Kai yra atitiktis, programinė įranga gali atpažinti komandą ir atitinkamai veikti.
Dar vienas dalykas, kurį reikia paminėti šiuo metu, yra vadinamasis WER (žodžių klaidų rodiklis). Tai formulė, kurioje klaidos skaičių padalijate iš žodžių sumos. Taigi, paprastai tariant, tai labai priklauso nuo tikslumo. Žinoma, tikslas yra turėti žemą WER, nes tai reiškia, kad ištarto žodžio transkripcija yra tikslesnė.
Kalbos atpažinimas dabar kaip niekad paklausus. Jei taip pat reikia konvertuoti ištartą žodį iš, tarkime, įrašyto garso failo į tekstą, galite kreiptis į Gglot. Esame transkripcijos paslaugų teikėjas, siūlantis tikslias transkripcijas už teisingą kainą. Taigi, nedvejodami susisiekite su mūsų patogia svetaine.