Úloha umelej inteligencie a strojového učenia pri rozpoznávaní reči

Úloha umelej inteligencie a strojového učenia pri rozpoznávaní reči

Ľudia dlho chceli mať možnosť rozprávať sa so strojmi. Odkedy začali stavať počítače, vedci a inžinieri sa pokúšali začleniť rozpoznávanie reči do procesu. V roku 1962 IBM predstavilo Shoebox, stroj na rozpoznávanie reči, ktorý dokázal robiť jednoduché matematické výpočty. Toto inovatívne zariadenie rozpoznalo a reagovalo na 16 hovorených slov vrátane desiatich číslic od „0“ do „9“. Keď bolo vyslovené číslo a príkazové slová ako „plus“, „mínus“ a „celkom“, Shoebox dal pokyn sčítaciemu stroju, aby vypočítal a vytlačil odpovede na jednoduché aritmetické úlohy. Shoebox bol ovládaný hovorením do mikrofónu, ktorý premieňal hlasové zvuky na elektrické impulzy. Merací obvod klasifikoval tieto impulzy podľa rôznych typov zvukov a aktivoval pripojený sčítací stroj cez reléový systém.

Postupom času sa táto technológia vyvinula a dnes mnohí z nás bežne komunikujú s počítačmi hlasom. Najpopulárnejšími hlasovými asistentmi sú dnes Alexa od Amazonu, Siri od Apple, Google Assistant a Cortana od Microsoftu. Títo asistenti môžu vykonávať úlohy alebo služby pre jednotlivca na základe príkazov alebo otázok. Sú schopní interpretovať ľudskú reč a reagovať prostredníctvom syntetizovaných hlasov. Používatelia môžu svojim asistentom klásť otázky, ovládať zariadenia domácej automatizácie a prehrávanie médií hlasom a spravovať ďalšie základné úlohy, ako sú e-maily, zoznamy úloh a kalendáre, pomocou verbálnych príkazov. Čím viac tieto zariadenia ovládané hlasom používame, tým viac sa stávame závislé od umelej inteligencie (AI) a strojového učenia.

Umelá inteligencia (AI)

1

Keď sa povie umelá inteligencia (AI), mnohí ľudia si môžu myslieť, že hovoríte o sci-fi, aj keď je umelá inteligencia súčasťou nášho každodenného života. V skutočnosti je to už desaťročia. Pravdou však je, že to bolo skutočne sci-fi, čo na začiatku 20. storočia zoznámilo verejnosť s umelo inteligentnými robotmi podobnými ľuďom. V 50. rokoch sa koncepty AI čoraz viac dostávali do centra záujmu vedcov a filozofov. V tom čase mladý britský matematik Alan Turing naznačil, že neexistuje dôvod, prečo by stroje nemohli (rovnako ako ľudia) riešiť problémy a rozhodovať sa na základe dostupných informácií. Ale v tom čase počítače nemali možnosť zapamätať si, čo je kľúčové pre inteligenciu. Jediné, čo robili, bolo vykonávať príkazy. Napriek tomu to bol Alan Turing, kto stanovil základný cieľ a víziu umelej inteligencie.

Všeobecne uznávaným otcom AI je John McCarthy, ktorý zaviedol pojem umelá inteligencia . Umelá inteligencia pre neho bola: „veda a inžinierstvo výroby inteligentných strojov“. Táto definícia bola prezentovaná na konferencii na Dartmouth College v roku 1956 a naznačila začiatok výskumu AI. Odvtedy AI prekvitala.

V modernom svete je umelá inteligencia všadeprítomná. Stala sa populárnejšou vďaka zvýšeným objemom údajov, pokročilým algoritmom a zlepšeniam vo výpočtovom výkone a úložisku. Aplikácia AI je väčšinou spojená s intelektuálnymi úlohami. AI používame na preklad, rozpoznávanie objektov, tváre a reči, detekciu tém, analýzu medicínskych obrázkov, spracovanie prirodzeného jazyka, filtrovanie sociálnych sietí, hranie šachu atď.

Strojové učenie

Strojové učenie je aplikáciou umelej inteligencie a týka sa systémov, ktoré majú schopnosť zlepšovať sa na základe vlastných skúseností. Najdôležitejšou vecou je, že systém musí vedieť rozpoznať vzory. Aby to bolo možné urobiť, systém musí byť vyškolený: algoritmus dodáva veľké množstvo údajov, takže v určitom bode je schopný identifikovať vzory. Cieľom je umožniť počítačom učiť sa automaticky bez ľudského zásahu alebo asistencie.

Keď hovoríme o strojovom učení, je dôležité spomenúť hlboké učenie. Začnime tým, že jedným z hlavných nástrojov používaných v hlbokom učení sú umelé neurónové siete. Sú to algoritmy, ktoré sú inšpirované štruktúrou a funkciou mozgu, aj keď majú tendenciu byť statické a symbolické, a nie plastické a analógové ako biologický mozog. Hlboké učenie je teda špecializovaná forma strojového učenia založená na umelej neurónovej sieti, ktorej cieľom je replikovať spôsob, akým sa ľudia učia, a slúži ako skvelý nástroj na nájdenie vzorcov, ktorých je príliš veľa na to, aby ich programátor naučil stroj. Za posledných pár rokov sa veľa hovorilo o autách bez vodiča a o tom, ako by mohli zmeniť naše životy. Technológia hlbokého učenia je tu kľúčová, pretože znižuje nehodovosť tým, že umožňuje autu rozlíšiť chodca od požiarneho hydrantu alebo rozpoznať červené svetlo. Technológia hlbokého učenia tiež hrá hlavnú úlohu pri ovládaní hlasom v zariadeniach, ako sú tablety, telefóny, chladničky, televízory atď. Spoločnosti elektronického obchodu často používajú umelé neurónové siete ako systém filtrovania, ktorý sa snaží predvídať a zobrazovať položky, ktoré by používateľ chcel kúpiť. Technológia hlbokého učenia sa používa aj v lekárskej oblasti. Pomáha výskumníkom rakoviny automaticky odhaliť rakovinové bunky a predstavuje tak obrovský pokrok v liečbe rakoviny.

Rozpoznávanie reči

Technológia rozpoznávania reči slúži na identifikáciu slov a fráz z hovoreného jazyka a na ich konverziu do formátu čitateľného pre stroj. Zatiaľ čo niektoré programy dokážu identifikovať iba obmedzený počet fráz, niektoré sofistikovanejšie programy na rozpoznávanie reči dokážu dešifrovať prirodzenú reč.

Existujú prekážky, ktoré treba prekonať?

Hoci je technológia rozpoznávania reči pohodlná, nie vždy ide hladko a stále je potrebné vyriešiť niekoľko problémov, pretože sa neustále vyvíja. Problémy, ktoré môžu nastať, môžu okrem iného zahŕňať nasledovné: kvalita nahrávky môže byť nedostatočná, v pozadí sa môžu vyskytovať zvuky, ktoré sťažujú pochopenie hovoriaceho, tiež môže mať rečník skutočne silný prízvuk alebo dialekt (mali ste počul si niekedy dialekt Geordie?) atď.

Rozpoznávanie reči sa značne rozvinulo, no k dokonalosti má stále ďaleko. Nie všetko je len o slovách, stroj stále nedokáže urobiť veľa vecí, ktoré ľudia dokážu: nedokážu čítať reč tela alebo rozpoznať sarkastický tón v niečiom hlase. Ľudia často nevyslovujú každé slovo správnym spôsobom a majú tendenciu niektoré slová skracovať. Napríklad, keď hovoríte rýchlo a neformálne, rodení anglicky hovoriaci často vyslovujú „going to“ ako „gonna“. Všetko spomenuté spôsobuje strojom prekážky, ktoré sa snažia prekonať, no pred nimi je ešte dlhá cesta. Je dôležité zdôrazniť, že čím viac a viac údajov sa privádza do týchto špecifických algoritmov; Zdá sa, že výzvy sa zmenšujú. Budúcnosť automatického rozpoznávania reči sa zdá byť svetlá.

Používateľské rozhrania ovládané hlasom sú v domácnostiach čoraz dostupnejšie a populárnejšie. Môže sa dokonca stať ďalšou platformou v technológii.

Gglot ponúka automatické rozpoznávanie reči vo forme služieb automatického prepisu – reči konvertujeme na text. Naša služba je jednoduchá na používanie, nebude vás stáť veľa a bude vykonaná rýchlo!