A mesterséges intelligencia és a gépi tanulás szerepe a beszédfelismerésben

A mesterséges intelligencia és a gépi tanulás szerepe a beszédfelismerésben

Az emberek sokáig azt akarták, hogy beszélhessenek gépekkel. Amióta számítógépeket kezdtek építeni, a tudósok és a mérnökök megpróbálták beépíteni a beszédfelismerést a folyamatba. 1962-ben az IBM bemutatta a Shoebox nevű beszédfelismerő gépet, amely egyszerű matematikai számításokat tud végrehajtani. Ez az innovatív eszköz 16 kimondott szót felismert és megválaszolta azokat, köztük a „0” és a „9” tíz számjegyet. Amikor egy szám és parancsszó, például „plusz”, „mínusz” és „összesen” elhangzott, a Cipősdoboz utasította egy hozzáadódó gépet, hogy számolja ki és nyomtassa ki az egyszerű számtani problémákra adott válaszokat. A Cipősdobozt úgy működtették, hogy mikrofonba beszéltek, amely a hanghangokat elektromos impulzusokká alakította át. Egy mérőáramkör ezeket az impulzusokat különféle hangtípusok szerint osztályozta és egy relerendszeren keresztül aktiválta a csatlakoztatott hozzáadagoló gépet.

Az idő előrehaladtával ez a technológia fejlődött, és manapság sokan rendszeresen kommunikálunk számítógéppel hangon. A legnépszerűbb hangsegédek ma az Amazon Alexa, az Apple Siri, a Google Assistant és a Microsoft Cortana. Ezek az asszisztensek parancsok vagy kérdések alapján végezhetnek feladatokat vagy szolgáltatásokat az egyén számára. Képesek értelmezni az emberi beszédet és szintetizált hangokon keresztül reagálni. A felhasználók kérdéseket tehetnek fel asszisztenseiknek, vezérelhetik az otthoni automatizálási eszközöket és a médialejátszást hangon keresztül, és egyéb alapvető feladatokat, például e-mailt, tennivalók listáját és naptárakat kezelhetnek verbális parancsokkal. Minél többet használjuk ezeket a hangvezérelt eszközöket, annál inkább válunk a mesterséges intelligenciától (AI) és a gépi tanulástól függ.

Mesterséges intelligencia (AI)

1

Amikor azt mondod, hogy a mesterséges intelligencia (AI), sokan azt gondolhatják, hogy tudományos fantasztikáról beszélsz, annak ellenére, hogy az AI nagyon beágyazódott a mindennapjainkba. Valójában évtizedek óta. De az igazság az, hogy valóban sci-fi, hogy az elején a 20. század megismerte a nagyközönség számára a mesterséges intelligenciával rendelkező ember, mint a robotok. Az ötvenes években az AI fogalmai egyre inkább a tudósok és filozófusok érdeklődésének középpontjába kerültek. Ebben az időben a fiatal brit matematikus, Alan Turing azt javasolta, hogy nincs oka annak, hogy a gépek (csakúgy, mint az emberek) nem tudnák megoldani a problémákat és a rendelkezésre álló információk alapján döntéseket hozni. De abban az időben a számítógépeknek nem volt lehetőségük megjegyezni, ami kulcsfontosságú az intelligencia szempontjából. Csak parancsokat hajtottak végre. De mégis Alan Turing határozta meg a mesterséges intelligencia alapvető célját és jövőképét.

Az mesterséges intelligencia atyjaként széles körben elismert John McCarthy, aki kitalálta a mesterséges intelligencia kifejezést. Számára az AI a következő volt: „az intelligens gépek gyártásának tudománya és mérnöki terve”. Ezt a meghatározást egy konferencián mutatták be a Dartmouth College-ban 1956-ban, és ez jelezte az AI kutatás kezdetét. Ettől kezdve az AI virágzott.

A modern világban a mesterséges intelligencia mindenütt jelen van. Népszerűbbé vált a megnövekedett adatmennyiség, fejlett algoritmusok, valamint a számítási teljesítmény és a tárolás fejlesztése révén. Leginkább az AI alkalmazás kapcsolódik intellektuális feladatokhoz. Az AI-t fordításra, tárgy-, arc- és beszédfelismerésre, témakeresésre, orvosi képelemzésre, természetes nyelv feldolgozására, közösségi hálózatok szűrésére, sakkozásra stb.

Gépi tanulás

A gépi tanulás a mesterséges intelligencia alkalmazása, és olyan rendszerekre utal, amelyek saját tapasztalataik alapján képesek fejleszteni. A legfontosabb itt az, hogy a rendszernek tudnia kell a minták felismerését. Ahhoz, hogy ezt megtehesse, a rendszert ki kell képezni: az algoritmus nagy mennyiségű adatot táplál be, így egy bizonyos ponton képes azonosítani a mintákat. A cél az, hogy lehetővé tegyék a számítógépek automatikus tanulását emberi beavatkozás vagy segítség nélkül.

A gépi tanulásról fontos megemlíteni a mély tanulást. Kezdjük azzal, hogy a mély tanulásban az egyik fő eszköz a mesterséges ideghálózat. Ezek olyan algoritmusok, amelyeket az agy felépítése és működése inspirál, annak ellenére, hogy általában statikusak és szimbolikusak, és nem plasztikusak és analógok, mint a biológiai agy. Tehát a mély tanulás a gépi tanulás speciális formája, amely mesterséges ideghálózaton alapul, amelynek célja az emberek tanulási módjának megismétlése, és ez kiváló eszköz arra, hogy olyan mintákat találjon, amelyek túl sokak ahhoz, hogy egy programozó megtanítsa a gépet. Az elmúlt néhány évben sok szó esett a vezető nélküli autókról és arról, hogyan változtathatnák meg az életünket. A mély tanulási technológia itt a kulcs, mert csökkenti a baleseteket azáltal, hogy lehetővé teszi az autó számára, hogy megkülönböztesse a gyalogost a tűzcsaptól, vagy felismerje a piros lámpát. A mély tanulási technológiának a hangvezérlésben is a fő szerepe van olyan eszközökben, mint a táblagépek, telefonok, hűtők, tévék stb. Az e-kereskedelmi vállalatok gyakran mesterséges ideghálózatokat használnak szűrőrendszerként, amelyek megpróbálják megjósolni és megmutatni azokat az elemeket, amelyeket a felhasználó szeretne megvesz. A mély tanulási technológiát az orvosi területen is használják. Segít a rákkutatóknak a rákos sejtek automatikus felderítésében, és ezzel óriási előrelépést jelent a rákkezelésben.

Beszédfelismerés

A beszédfelismerési technológia arra szolgál, hogy azonosítsa a beszélt nyelvet alkotó szavakat és kifejezéseket, valamint azokat a gép számára olvasható formátumúra konvertálja. Míg egyes programok csak korlátozott számú kifejezést tudnak azonosítani, néhány kifinomultabb beszédfelismerő program képes megfejteni a természetes beszédet.

Vannak akadályok, amelyeket le kell győzni?

Bár kényelmes, a beszédfelismerő technológia nem mindig megy zökkenőmentesen, és még mindig van néhány problémája, amelyeket folyamatosan fejleszteni kell. A felmerülő problémák többek között a következőket tartalmazhatják: a felvétel minősége nem megfelelő, a háttérben olyan zajok lehetnek, amelyek megnehezítik a beszélő megértését, és a beszélőnek is lehet igazán erős akcentusa vagy dialektusa (nem hallotta-e valaha a Geordie-dialektust?), stb.

A beszédfelismerés elég sokat fejlődött, de még mindig korántsem tökéletes. Nem minden csak a szavakról szól, a gép még mindig nem képes sok mindent megtenni, amit az ember képes: nem képes elolvasni a testbeszédet vagy felismerni a szarkasztikus hangot valaki hangjában. Az emberek gyakran nem minden szót ejtenek a megfelelő módon, és hajlamosak egyes szavakat lerövidíteni. Például amikor gyorsan és informálisan beszélnek, az angol anyanyelvűek gyakran kimondják a „megy” szót, mint a „fogok”. A fentiek mind akadályokat okoznak a gépek előtt, amelyeket megpróbálnak legyőzni, de még mindig hosszú út áll előttük. Fontos kiemelni, hogy mivel egyre több adat táplálkozik az adott algoritmusokhoz; a kihívások látszólag csökkennek. Az automatizált beszédfelismerés jövője fényesnek tűnik.

A hangalapú felhasználói felületek egyre inkább elérhetőek és népszerűbbek a háztartásokban. Lehet, hogy még a következő platform is lesz a technológiában.

A Gglot automatizált beszédfelismerést kínál automatizált átírási szolgáltatások formájában – a beszédet szöveggé alakítjuk. Szolgáltatásunk használata egyszerű, nem kerül sokba és gyorsan elkészül!