Role umělé inteligence a strojového učení v rozpoznávání řeči

Role umělé inteligence a strojového učení v rozpoznávání řeči

Lidé dlouho chtěli být schopni mluvit se stroji. Od té doby, co začali stavět počítače, se vědci a inženýři pokusili začlenit do procesu rozpoznávání řeči. V roce 1962 představila IBM Shoebox, stroj na rozpoznávání řeči, který umí provádět jednoduché matematické výpočty. Toto inovativní zařízení rozpoznalo a reagovalo na 16 mluvených slov, včetně deseti číslic od „0“ do „9.“ Když zaznělo číslo a příkazová slova jako „plus“, „minus“ a „celkem“, Shoebox nařídil sčítacímu stroji, aby vypočítal a vytiskl odpovědi na jednoduché aritmetické problémy. Shoebox byl ovládán mluvením do mikrofonu, který převáděl hlasové zvuky na elektrické impulsy. Měřicí obvod klasifikoval tyto impulsy podle různých typů zvuků a aktivoval připojený přidávací stroj prostřednictvím reléového systému.

Postupem času se tato technologie vyvinula a dnes mnoho z nás běžně komunikuje s počítači mimo jiné pomocí hlasu. Nejoblíbenějšími hlasovými asistenty jsou dnes Alexa od Amazonu, Siri od Apple, Google Assistant a Cortana od Microsoftu. Tito asistenti mohou provádět úkoly nebo služby pro jednotlivce na základě příkazů nebo otázek. Jsou schopni interpretovat lidskou řeč a reagovat syntetizovanými hlasy. Uživatelé mohou svým asistentům klást otázky, ovládat domácí automatizační zařízení a přehrávání médií pomocí hlasu a spravovat další základní úkoly, jako jsou e-maily, seznamy úkolů a kalendáře, pomocí verbálních příkazů. Čím více těchto hlasových zařízení používáme, tím více se stáváme závislé na umělé inteligenci (AI) a strojovém učení.

Umělá inteligence (AI)

1

Když se řekne umělá inteligence (AI), mnoho lidí by si mohlo myslet, že mluvíte o sci-fi, i když je AI velmi součástí našeho každodenního života. Ve skutečnosti to bylo po celá desetiletí. Ale pravdou je, že to bylo opravdu science fiction, že na začátku 20. století, seznámil veřejnost s uměle inteligentní člověk-jako roboty. V 50. letech se pojetí AI dostávalo stále více do centra zájmu vědců a filozofů. V té době mladý britský matematik Alan Turing navrhl, že neexistuje důvod, proč by stroje nemohly (stejně jako lidé) řešit problémy a rozhodovat na základě dostupných informací. Ale v té době neměly počítače možnost zapamatování, což je klíčem pro inteligenci. Jediné, co udělali, bylo vykonávat příkazy. Ale přesto to byl Alan Turing, kdo stanovil základní cíl a vizi umělé inteligence.

Za otce AI je široce uznáván John McCarthy, který vytvořil termín umělá inteligence . AI pro něj byla: „věda a technika výroby inteligentních strojů“. Tato definice byla představena na konferenci na Dartmouth College v roce 1956 a naznačovala začátek výzkumu AI. Od té doby AI vzkvétala.

V moderním světě je umělá inteligence všudypřítomná. Stala se populárnější díky zvýšenému objemu dat, pokročilým algoritmům a vylepšením výpočetního výkonu a úložiště. Většinou je aplikace AI spojena s intelektuálními úkoly. Používáme AI pro překlad, rozpoznávání objektů, tváře a řeči, detekci témat, analýzu lékařských obrazů, zpracování přirozeného jazyka, filtrování sociálních sítí, hraní šachů atd.

Strojové učení

Strojové učení je aplikace umělé inteligence a týká se systémů, které mají schopnost zlepšovat se z vlastních zkušeností. Nejdůležitější zde je, že systém potřebuje vědět, jak rozpoznat vzory. Aby to bylo možné, musí být systém proškolen: algoritmus přivádí velké množství dat, takže v určitém okamžiku je schopen identifikovat vzory. Cílem je umožnit počítačům automatické učení bez lidského zásahu nebo pomoci.

Když mluvíme o strojovém učení, je důležité zmínit hluboké učení. Začněme tím, že jedním z hlavních nástrojů používaných při hlubokém učení jsou umělé neuronové sítě. Jedná se o algoritmy, které jsou inspirovány strukturou a funkcí mozku, i když mají tendenci být statické a symbolické, a nikoli plastické a analogické jako biologický mozek. Hluboké učení je tedy specializovaná forma strojového učení založená na umělé neuronové síti, jejímž cílem je replikovat způsob, jakým se lidé učí, a to slouží jako skvělý nástroj k nalezení vzorců, které jsou příliš početné na to, aby programátor mohl stroj učit. V posledních několika letech se hodně mluvilo o automobilech bez řidiče a o tom, jak mohou změnit náš život. Klíčem je technologie hlubokého učení, protože omezuje počet nehod tím, že umožňuje autu rozlišit chodce od požárního hydrantu nebo rozpoznat červené světlo. Technologie hlubokého učení hraje také hlavní roli v hlasovém ovládání v zařízeních, jako jsou tablety, telefony, ledničky, televize atd. Společnosti elektronického obchodování často používají umělé neuronové sítě jako filtrační systém, který se snaží předvídat a ukázat položky, které by uživatel chtěl Koupit. Technologie hlubokého učení se používá také v lékařské oblasti. Pomáhá výzkumníkům v rakovině automaticky detekovat rakovinné buňky, a představuje tak obrovský pokrok v léčbě rakoviny.

Rozpoznávání řeči

Technologie rozpoznávání řeči slouží k identifikaci slov a frází z mluveného jazyka a jejich převodu do čitelného formátu pro stroj. Zatímco některé programy dokážou identifikovat pouze omezený počet frází, některé sofistikovanější programy rozpoznávání řeči dokážou dešifrovat přirozenou řeč.

Je třeba překonat překážky?

I když je to praktické, technologie rozpoznávání řeči nemusí vždy probíhat hladce a stále má několik problémů, které je třeba vyřešit, protože se neustále vyvíjí. Mezi problémy, které mohou nastat, patří mimo jiné následující: kvalita záznamu může být neadekvátní, v pozadí mohou být zvuky, které znesnadňují porozumění řečníkovi, také řečník může mít opravdu silný přízvuk nebo dialekt ( Už jste někdy slyšeli dialekt Geordie?) atd.

Rozpoznávání řeči se vyvinulo dost, ale stále není zdaleka dokonalé. Ne všechno je jen o slovech, stroj stále nedokáže mnoho věcí, které lidé dokáží: neumí číst řeč těla ani rozpoznat sarkastický tón něčího hlasu. Lidé často nevyslovují každé slovo správným způsobem a mají tendenci některá slova zkrátit. Například, když mluvíte rychle a neformálně, rodilí mluvčí angličtiny často vyslovují „jít do“ jako „jít“. Všechno výše uvedené způsobuje překážky strojům, které se snaží překonat, ale před nimi je ještě dlouhá cesta. Je důležité zdůraznit, že čím více a více dat se přivádí k těmto konkrétním algoritmům; zdá se, že se výzvy snižují. Budoucnost automatického rozpoznávání řeči se zdá být jasná.

Hlasová uživatelská rozhraní jsou v domácnostech stále dostupnější a oblíbenější. Může se dokonce stát další technologickou platformou.

Gglot nabízí automatické rozpoznávání řeči v podobě služeb automatického přepisu – řeči převádíme na text. Naše služba se snadno používá, nebude vás to stát mnoho a bude rychle hotová!