Mi is pontosan a beszédfelismerés?

Beszédfelismerés

Mit kell tudni a beszédfelismerésről

Amikor beszédfelismerésről beszélünk, általában olyan szoftvert értünk, amely képes felismerni a kimondott szót és leírni egy programba, így végül minden megvan, amit írott formátumban mondtak el. Gyakran „beszéd-szöveg” -nek is nevezik. Eleinte ennek a szoftvernek nagyon korlátozott lehetőségei voltak, így csak korlátozott számú kifejezést tudott átalakítani. Az idő előrehaladtával a beszédfelismerő szoftver mögött álló technológia sokat fejlődött, és ma már sokkal kifinomultabb, így képes felismerni a különböző nyelveket és még a különböző akcentusokat is. De ezen a területen természetesen még van munka.

Fontos észrevenni azt is, hogy a beszédfelismerés nem azonos a hangfelismeréssel, annak ellenére, hogy néha az emberek ugyanazon dologra használják a két kifejezést. A hangfelismerést a beszélő személy azonosítására használják, és nem az elhangzottak jegyzetelésére.

A beszédfelismerés és a kapcsolódó technológia rövid története

Ebben a cikkben röviden elmagyarázzuk a beszédfelismerés térnyerésének hátterét és technológiáját.

A digitális korszak hajnala óta az emberek arra törekedtek, hogy valahogy kommunikálni tudjanak a gépekkel. Az első típusú digitális számítógép feltalálása után számos tudós és mérnök próbálkozott különféle módokon, hogy valahogy megvalósítsa a beszédfelismerést ebben a folyamatban. A folyamat döntő éve 1962 volt, amikor az IBM bemutatta a Shoebox nevű alapvető beszédfelismerő gépet, amely képes volt egyszerű matematikai számításokra. Ha a proto-számítógép felhasználója beszélt egy mikrofonba, akkor ez a gép legfeljebb hat vezérlő szót képes felismerni, például „plusz” vagy „mínusz”. Az idő múlásával kialakult a mögöttes technológia, és manapság nagyon gyakori jellemző, hogy a számítógéppel hangon kommunikálunk. Számos olyan híres beszédfelismerő motor létezik, mint a Siri vagy az Alexa. Fontos megjegyezni, hogy ezek a hangvezérelt eszközök a mesterséges intelligenciától (AI) és a gépi tanulástól függenek.

Amikor a mesterséges intelligenciát (AI) említik, ez úgy hangozhat, mint valami tudományos-fantasztikus film, de az igazság az, hogy a mai korban az AI nagy szerepet játszik a világunkban. Valójában az AI már nagyon jelen van a mindennapjainkban, mivel sok program és alkalmazás már használja is. De a 20. század elején, amikor megjelent a kifejezés, tudományos fantasztikus irodalom volt. 1950 végén az AI fogalmai egyre hangsúlyosabbá váltak, és sok tudós és filozófus érdekelte őket. Abban az időben egy nagyon ambiciózus brit matematikus, Alan Turing hívta fel azt a javaslatot, miszerint a gépek képesek megoldani a problémákat és a rendelkezésre álló információk bevitele alapján maguk hozhatnak döntéseket. A probléma az volt, hogy a számítógépeknek még nem volt lehetőségük megjegyezni ezeket az adatokat, ami a mesterséges intelligencia fejlesztésének döntő lépése. Annyit tehettek, hogy egyszerű parancsokat hajtottak végre.

Az AI fejlesztésének másik fontos neve John McCarthy, aki először a „mesterséges intelligencia” kifejezést találta ki. McCarthy kijelentette, hogy az AI az „intelligens gépek gyártásának tudománya és mérnöki terve”. Ez a meghatározás 1956-ban, a Dartmouth College-ban megrendezett konferencián derült ki. Ettől kezdve az AI eszeveszett ütemben kezdett fejlődni.

Ma a mesterséges intelligencia különféle formájában mindenütt jelen van. A tömeges átvételig nőtt, főleg a világszerte minden nap kicserélt összes adat mennyiségének növekedése miatt. Fejlett algoritmusokban használják, és a tárolási és számítási teljesítmény javítását eredményezte. Az AI-t számos célra használják, például fordításra, átírásra, beszéd-, arc- és tárgyfelismerésre, orvosi képek elemzésére, természetes nyelvek feldolgozására, különféle közösségi hálózati szűrőkre és így tovább. Emlékszel arra a sakkmérkőzésre Gari Kasparov nagymester és a Deep Blue sakk AI között?

Cím nélkül 7 1

A gépi tanulás a mesterséges intelligencia másik nagyon fontos alkalmazása. Röviden, minden olyan rendszerre utal, amely képes saját tapasztalatainak adatbázisából tanulni és javítani. Ez a minták felismerésén keresztül működik. Ahhoz, hogy a rendszer ezt megtegye, képzettnek kell lennie. A rendszer algoritmusa nagy mennyiségű adatbevitelt kap, és egy ponton képessé válik a minták azonosítására ezekből az adatokból. Ennek a folyamatnak a célja az, hogy lehetővé tegye ezeknek a számítógépes rendszereknek az önálló tanulást, emberi beavatkozás vagy segítség nélkül.

Egy másik dolog, amit nagyon fontos megemlíteni a gépi tanulás mellett, az a mély tanulás. Az egyik legfontosabb eszköz a mély tanulás folyamatában az úgynevezett mesterséges ideghálózatok. Fejlett algoritmusok, hasonlóak az emberi agy felépítéséhez és működéséhez. Ezek azonban statikusak és szimbolikusak, ellentétben a plasztikus és analóg alapú biológiai aggyal. Röviden, ez a mély tanulás a gépi tanulás egy nagyon speciális módja, elsősorban mesterséges idegi hálózatokon alapul. A mély tanulás célja az emberi tanulási folyamatok szoros megismétlése. A mély tanulási technológia nagyon hasznos, és fontos szerepet játszik a hang által vezérelt különféle eszközökben - táblagépekben, tévékben, okostelefonokban, hűtőszekrényekben stb. hogy a felhasználó vásárolni fog a jövőben. A mély tanulási technológiát nagyon széles körben használják az orvosi területen is. Nagyon fontos a rákkutatók számára, mert segít a rákos sejtek automatikus felismerésében.

Most visszatérünk a beszédfelismeréshez. Ennek a technológiának, amint azt már említettük, célja a beszélt nyelv különféle szavainak és kifejezéseinek azonosítása. Utána átalakítja őket olyan formátumba, amelyet a gép képes olvasni. Az alapprogramok csak néhány kulcsfontosságú kifejezést azonosítanak, de néhány fejlettebb beszédfelismerő szoftver képes mindenféle természetes beszédet megfejteni. A beszédfelismerő technológia a legtöbb esetben kényelmes, de néha olyan problémákkal is találkozik, amikor a felvétel minősége nem elég jó, vagy olyan háttérzajok vannak, amelyek megnehezítik a beszélő megfelelő megértését. Előfordulhat, hogy továbbra is problémákat tapasztal, ha a beszélőnek nagyon erős a hangsúlya vagy a nyelvjárása. A beszédfelismerés folyamatosan fejlődik, de még mindig nem egészen tökéletes. Nem minden a szavakról szól, a gépek még mindig nem képesek sok mindenre, amit az emberek megtehetnek, például nem képesek megfejteni a testbeszédet vagy valakinek a hangját. Mivel azonban ezek a fejlett algoritmusok több adatot megfejtenek, úgy tűnik, hogy ezeknek a kihívásoknak a nehézsége csökken. Ki tudja, mit hoz a jövő? Nehéz megjósolni, hová kerül a beszédfelismerés. Például a Google már most is nagy sikereket ért el a beszédfelismerő szoftverek bevezetésében a Google Translate motorokban, a gép pedig folyamatosan tanul és fejlődik. Lehet, hogy egy napon teljesen helyettesítik az emberi fordítókat. Vagy talán nem, a mindennapi beszédhelyzetek túl bonyolultak minden olyan géphez, amely nem képes az emberi lélek mélységét leolvasni.

Mikor kell használni a beszédfelismerést?

Manapság szinte mindenkinek van okostelefonja vagy táblagépe. A beszédfelismerés általános jellemző ezekben az eszközökben. Arra használják, hogy az ember beszédét cselekvéssé alakítsák. Ha felhívni szeretné a nagymamáját, elég, ha parancsolja a „nagyi hívása” parancsot, és az okostelefon már tárcsázza a számot, anélkül, hogy be kellene írnia a névjegyzékét. Ez a beszédfelismerés. Egy másik jó példa erre az Alexa vagy a Siri. Rendszerükben ezt a funkciót is bekötik. A Google lehetőséget ad arra is, hogy bármit hanggal kereshet, anélkül, hogy bármit beírna.

Cím nélkül 8 1

Talán most kíváncsi arra, hogy mindez hogyan működik. Nos, a működéséhez szenzorokat, például mikrofonokat kell beépíteni a szoftverbe, hogy a kimondott szavak hanghullámait felismerjék, elemezzék és digitális formátumúra konvertálják. Ezután a digitális információt össze kell hasonlítani más információkkal, amelyeket valamilyen szavak és kifejezések tárháza tárol. Ha van egyezés, a szoftver felismeri a parancsot, és ennek megfelelően cselekszik.

Még egy dolgot, amelyet meg kell említeni ezen a ponton, az úgynevezett WER (szó hibaarány). Ez egy képlet, amelyben elosztja a hibaszámot a szavak teljes számával. Tehát, leegyszerűsítve, sok köze van a pontossághoz. A cél természetesen az alacsony WER, mivel ez azt jelenti, hogy a kimondott szó átírása pontosabb.

A beszédfelismerésre most éppúgy szükség van, mint valaha. Ha a kimondott szót is át kell alakítani mondjuk egy rögzített hangfájlból szöveggé, akkor a Gglothoz fordulhat. Átírási szolgáltató vagyunk, amely pontos átírásokat kínál méltányos áron. Tehát ne habozzon kapcsolatba lépni felhasználóbarát weboldalunkon keresztül.