Dirbtinio intelekto ir mašininio mokymosi vaidmuo atpažįstant kalbą
Dirbtinio intelekto ir mašininio mokymosi vaidmuo atpažįstant kalbą
Ilgą laiką žmonės norėjo turėti galimybę susikalbėti su mašinomis. Nuo tada, kai pradėjo kurti kompiuterius, mokslininkai ir inžinieriai bandė įtraukti kalbos atpažinimą į procesą. 1962 m. IBM pristatė „Shoebox“ – kalbos atpažinimo mašiną, galinčią atlikti paprastus matematinius skaičiavimus. Šis naujoviškas įrenginys atpažino ir reagavo į 16 ištartų žodžių, įskaitant dešimt skaitmenų nuo „0“ iki „9“. Kai buvo ištartas skaičius ir komandiniai žodžiai, tokie kaip „pliusas“, „minusas“ ir „viso“, „Shoebox“ nurodė pridėjimo mašinai apskaičiuoti ir atspausdinti atsakymus į paprastus aritmetinius uždavinius. Shoebox buvo valdomas kalbant į mikrofoną, kuris balso garsus pavertė elektros impulsais. Matavimo grandinė suskirstė šiuos impulsus pagal įvairius garsų tipus ir per relių sistemą suaktyvino prijungtą pridėjimo mašiną.
Laikui bėgant ši technologija vystėsi ir šiandien daugelis iš mūsų reguliariai bendrauja su kompiuteriais balsu. Populiariausi balso padėjėjai šiandien yra „Alexa“ iš „Amazon“, „Siri“ iš „Apple“, „Google Assistant“ ir „Cortana“ iš „Microsoft“. Šie padėjėjai gali atlikti užduotis ar paslaugas asmeniui pagal komandas ar klausimus. Jie geba interpretuoti žmogaus kalbą ir reaguoti sintetintais balsais. Naudotojai gali užduoti klausimus savo padėjėjams, valdyti namų automatikos įrenginius ir medijos atkūrimą balsu ir valdyti kitas pagrindines užduotis, pvz., el. paštą, darbų sąrašus ir kalendorius, naudodami žodines komandas. Kuo daugiau naudosime šiuos balsu valdomus įrenginius, tuo labiau tampame priklauso nuo dirbtinio intelekto (AI) ir mašininio mokymosi.
Dirbtinis intelektas (DI)
Kai sakote dirbtinį intelektą (AI), daugelis žmonių gali manyti, kad kalbate apie mokslinę fantastiką, nors AI yra labai įsišaknijęs mūsų kasdieniame gyvenime. Tiesą sakant, tai buvo dešimtmečius. Tačiau tiesa ta, kad tai buvo mokslinė fantastika, kuri XX amžiaus pradžioje supažindino visuomenę su dirbtinai protingais į žmogų panašiais robotais. 50-aisiais AI sąvokos vis labiau atsidūrė mokslininkų ir filosofų dėmesio centre. Tuo metu jaunas britų matematikas Alanas Turingas teigė, kad nėra jokios priežasties, kodėl mašinos negalėtų (kaip ir žmonės) išspręsti problemų ir priimti sprendimų remdamosi turima informacija. Tačiau tuo metu kompiuteriai neturėjo galimybės įsiminti, kas yra svarbiausia intelektui. Viskas, ką jie darė, tai vykdė komandas. Bet vis tiek Alanas Turingas sukūrė pagrindinį dirbtinio intelekto tikslą ir viziją.
Plačiai pripažįstamas dirbtinio intelekto tėvu Johnas McCarthy, kuris sukūrė terminą dirbtinis intelektas . Jam dirbtinis intelektas buvo: „išmaniųjų mašinų gamybos mokslas ir inžinerija“. Šis apibrėžimas buvo pristatytas 1956 m. Dartmuto koledže vykusioje konferencijoje ir nurodė AI tyrimų pradžią. Nuo tada AI klestėjo.
Šiuolaikiniame pasaulyje dirbtinis intelektas yra visur. Jis tapo populiaresnis dėl padidėjusio duomenų kiekio, pažangių algoritmų ir patobulintų skaičiavimo galių bei saugojimo. Dažniausiai AI programa yra susijusi su intelektinėmis užduotimis. Dirbtinį intelektą naudojame vertimui, objektų, veido ir kalbos atpažinimui, temų aptikimui, medicininių vaizdų analizei, natūralios kalbos apdorojimui, socialinių tinklų filtravimui, šachmatais ir kt.
Mašininis mokymasis
Mašinų mokymasis yra dirbtinio intelekto taikymas ir jis susijęs su sistemomis, kurios turi galimybę tobulėti remiantis savo patirtimi. Čia svarbiausia yra tai, kad sistema turi žinoti, kaip atpažinti modelius. Kad tai būtų galima padaryti, sistema turi būti apmokyta: algoritmas tiekia didelius duomenų kiekius, kad tam tikru momentu ji galėtų identifikuoti šablonus. Tikslas yra leisti kompiuteriams mokytis automatiškai be žmogaus įsikišimo ar pagalbos.
Kalbant apie mašininį mokymąsi, svarbu paminėti gilųjį mokymąsi. Pradėkime sakydami, kad vienas iš pagrindinių giluminio mokymosi įrankių yra dirbtiniai neuroniniai tinklai. Tai yra algoritmai, kuriuos įkvėpė smegenų struktūra ir funkcija, nors jie dažniausiai yra statiški ir simboliniai, o ne plastiški ir analogiški kaip biologinės smegenys. Taigi, gilusis mokymasis yra specializuota mašininio mokymosi forma, pagrįsta dirbtiniu neuroniniu tinklu, kurio tikslas yra atkartoti žmonių mokymosi būdą, ir tai yra puiki priemonė ieškant modelių, kurių programuotojui yra per daug, kad galėtų išmokyti mašiną. Per pastaruosius porą metų buvo daug kalbama apie automobilius be vairuotojo ir apie tai, kaip jie gali pakeisti mūsų gyvenimą. Čia svarbiausia yra gilaus mokymosi technologija, nes ji sumažina nelaimingų atsitikimų skaičių, nes leidžia automobiliui atskirti pėsčiąjį nuo gaisrinio hidranto arba atpažinti raudoną šviesą. Giluminio mokymosi technologija taip pat atlieka pagrindinį vaidmenį valdant balsu tokiuose įrenginiuose kaip planšetiniai kompiuteriai, telefonai, šaldytuvai, televizoriai ir kt. Elektroninės prekybos įmonės dažnai naudoja dirbtinius neuroninius tinklus kaip filtravimo sistemą, kuri bando nuspėti ir parodyti elementus, kurių vartotojas norėtų. pirkti. Giluminio mokymosi technologija taip pat naudojama medicinos srityje. Tai padeda vėžio tyrėjams automatiškai aptikti vėžines ląsteles ir taip yra didžiulė vėžio gydymo pažanga.
Kalbos atpažinimas
Kalbos atpažinimo technologija padeda atpažinti žodžius ir frazes iš šnekamosios kalbos ir konvertuoti juos į aparatui skaitomą formatą. Nors kai kurios programos gali nustatyti tik ribotą skaičių frazių, kai kurios sudėtingesnės kalbos atpažinimo programos gali iššifruoti natūralią kalbą.
Ar yra kliūčių, kurias reikia įveikti?
Nors ir patogi, kalbos atpažinimo technologija ne visada veikia sklandžiai ir vis dar turi išspręsti keletą problemų, nes ji nuolat tobulinama. Gali kilti problemų, be kita ko: įrašymo kokybė gali būti netinkama, fone gali būti triukšmo, dėl kurio sunku suprasti kalbėtoją, taip pat kalbėtojas gali turėti tikrai stiprų akcentą ar tarmę (ar kada nors girdėjote Geordie tarmę?) ir kt.
Kalbos atpažinimas labai išsivystė, tačiau jis vis dar toli gražu nėra tobulas. Ne viskas priklauso nuo žodžių, mašina vis dar negali padaryti daugelio dalykų, kuriuos gali padaryti žmonės: jie nemoka skaityti kūno kalbos ar atpažinti sarkastiško balso tono. Žmonės dažnai neištaria kiekvieno žodžio tinkamai ir yra linkę trumpinti kai kuriuos žodžius. Pavyzdžiui, kai kalba greitai ir neformaliai, gimtoji anglų kalba dažnai taria „einu į“ kaip „gonna“. Visa tai, kas išdėstyta pirmiau, sukelia kliūtis mašinoms, kurias jos bando įveikti, tačiau jų laukia dar ilgas kelias. Svarbu pabrėžti, kad vis daugiau duomenų perduodama tiems specifiniams algoritmams; iššūkių, atrodo, mažėja. Atrodo, kad automatinio kalbos atpažinimo ateitis yra šviesi.
Balsu valdomos vartotojo sąsajos tampa vis labiau prieinamos ir populiaresnės namų ūkiuose. Tai netgi gali tapti kita technologijų platforma.
Gglot siūlo automatinį kalbos atpažinimą automatizuotų transkripcijos paslaugų pavidalu – kalbas konvertuojame į tekstą. Mūsų paslauga paprasta naudotis, ji jums nekainuos daug ir bus atlikta greitai!