Zer da zehazki Hizketaren Aitorpena?

Hizketa-ezagutza

Hizketa-aitorpenari buruz jakin behar duzuna

Hizketa-ezagutzeaz ari garenean, normalean, ahozko hitza ezagutzeko eta programa batean idazteko gaitasuna duen software bat esan nahi dugu, azkenean idatzizko formatuan hitz egin den guztia edukitzeko. "Hizkuntzatik testura" bezala ere aipatzen da. Hasieran software hark aukera oso mugatuak zituen, esaldi kopuru mugatu bat baino ez zenitezkeen bihurtzeko. Denborarekin, hizkera ezagutzeko softwarearen atzean dagoen teknologia asko garatu da eta orain askoz sofistikatuagoa da, hizkuntza desberdinak eta are azentu desberdinak ezagutu ahal izateko. Baina, noski, badago oraindik lan egiteko alor honetan.

Garrantzitsua da ohartzea hizketa-ezagutzea ez dela ahots-hautematearen berdina, nahiz eta batzuetan jendeak bi terminoak gauza berdinerako erabiltzen dituen. Ahots-ezagutza hitz egiten ari den pertsona identifikatzeko erabiltzen da eta esaten zena ez ohartzeko.

Hizketa-ezagutzaren eta erlazionatutako teknologiaren historia laburra

Artikulu honetan, labur-labur azalduko dugu hizketa-ezagutzaren gorakadaren atzean dagoen historia eta teknologia.

Aro digitalaren hasieratik, jendeak nolabait makinekin komunikatu ahal izateko gogoa izan zuen. Lehenengo ordenagailu digital mota asmatu ondoren, hainbat zientzialari eta ingeniari modu ezberdinetan saiatu dira nolabait prozesu honetan hizketa-ezagutza ezartzen. Prozesu honen urte erabakigarria 1962 izan zen, IBMk Shoebox aurkeztu zuenean, kalkulu matematiko sinpleak egiteko gai zen hizkera ezagutzeko oinarrizko makina bat. Protoordenagailu honen erabiltzaileak mikrofono batera hitz egiten bazuen, makina honek sei kontrol-hitz ezagutu ahal izan zituen "plus" edo "minus" bezalakoak. Denborak aurrera egin ahala, honen atzean dagoen teknologia garatu zen eta gaur egun oso ohikoa da ordenagailuekin ahots bidez elkarreragina izatea. Siri edo Alexa bezalako ahotsa ezagutzeko motor ospetsu asko daude. Garrantzitsua da ohartzea ahots bidezko gailu hauek adimen artifizialaren (AI) eta ikaskuntza automatikoaren menpe daudela.

Adimen artifiziala (AI) aipatzen denean, zientzia-fikziozko pelikula bateko zerbait dirudi, baina egia esan, gaur egun, IAk zeresan handia du gure munduan. Izan ere, IA dagoeneko oso presente dago gure eguneroko bizitzan, programa eta aplikazio askok dagoeneko erabiltzen baitute. Baina zientzia fikzioa zen XX.mendearen hasieran, terminoa sortu zenean. 1950. urtearen amaieran AIaren kontzeptuak nabarmenagoak izan ziren eta zientzialari eta filosofo askoren interesen ardatza izan zen. Garai hartan, Alan Turing izeneko matematikari britainiar oso anbiziotsu batek makinek problemak ebatzi eta erabakiak bere kabuz har ditzakeela proposatzen zuen, eskuragarri dagoen informazioaren sarreran oinarrituta. Arazoa zen ordenagailuek oraindik ez zutela datu horiek memorizatzeko aukerarik, hau da, adimen artifiziala garatzeko urrats erabakigarria. Orduan egin zezaketen guztia komando sinpleak exekutatu ziren.

AIaren garapenean beste izen garrantzitsu bat John McCarthy da, "adimen artifiziala" terminoa asmatu zuena. McCarthyk adierazi zuen AI dela: "makina adimendunak egiteko zientzia eta ingeniaritza". Definizio hori 1956an Dartmouth College-ko konferentzia nagusi batean atera zen argitara. Ordutik aurrera AI erritmo bizian hasi zen garatzen.

Gaur egun, adimen artifiziala bere forma ezberdinetan dago nonahi. Masiboki hazi da, batez ere mundu osoan egunero trukatzen ari diren datuen bolumen orokorra handitu delako. Algoritmo aurreratuetan erabiltzen da, eta biltegiratze eta konputazio ahalmenean hobekuntzak eragin zituen. AI helburu askotarako erabiltzen da, adibidez, itzulpena, transkripzioa, hizketa, aurpegia eta objektuak ezagutzeko, irudi medikoen azterketa, hizkuntza naturalen prozesatzea, sare sozialen hainbat iragazki eta abar. Gogoratzen al duzu Gari Kasparov maisu handiaren eta Deep Blue chess AIren arteko xake partida hura?

Izenbururik gabe 7 1

Machine learning adimen artifizialaren beste aplikazio garrantzitsu bat da. Laburbilduz, beren esperientziaren datu basetik ikasteko eta hobetzeko gaitasuna duten sistemak aipatzen ditu. Honek ereduak ezagutuz funtzionatzen du. Sistemak horretarako entrenatu ahal izan behar du. Sistemaren algoritmoak datu kopuru handien sarrera jasotzen du, eta une batean datu horietatik ereduak identifikatzeko gai bihurtzen da. Prozesu honen azken helburua sistema informatiko hauek modu independentean ikastea ahalbidetzea da, giza esku-hartze edo laguntzarik beharrik gabe.

Ikaskuntza automatikoarekin batera oso garrantzitsua den beste gauza bat ikaskuntza sakona da. Ikaskuntza sakonaren prozesuan tresnarik garrantzitsuenetako bat neurona-sare artifizialak deritzenak dira. Algoritmo aurreratuak dira, giza garunaren egitura eta funtzioaren antzekoak. Hala ere, estatikoak eta sinbolikoak dira, plastikozko eta analogikoagoa den garun biologikoa ez bezala. Laburbilduz, ikaskuntza sakon hau ikaskuntza automatikoko modu oso espezializatua da, batez ere neurona-sare artifizialetan oinarrituta. Ikaskuntza sakonaren helburua giza ikaskuntza-prozesuak hurbiletik errepikatzea da. Ikaskuntza sakoneko teknologia oso erabilgarria da, eta zeregin garrantzitsua betetzen du ahotsaren bidez kontrolatzen diren hainbat gailutan: tabletak, telebistak, telefonoak, hozkailuak, etab. Neurona-sare artifizialak elementuak iragartzea helburu duen iragazketa-sistema gisa ere erabiltzen dira. erabiltzaileak etorkizunean erosiko lukeela. Ikaskuntza sakoneko teknologia ere oso zabalduta dago medikuntza arloan. Minbiziaren ikertzaileentzat oso garrantzitsua da, minbizi-zelulak automatikoki detektatzen laguntzen duelako.

Orain hizketa-ezagutzara itzuliko gara. Teknologia honek, lehen aipatu dugun bezala, ahozko hizkuntzaren hainbat hitz eta esaldi identifikatzea du helburu. Ondoren, makinak irakurtzeko gai den formatu batean bihurtzen ditu. Oinarrizko programek esaldi gako kopuru txiki bat baino ez dute identifikatzen, baina hizketa ezagutzeko software aurreratuago batzuek mota guztietako hizketa naturalak deszifratzeko gai da. Ahotsa ezagutzeko teknologia komenigarria da kasu gehienetan, baina batzuetan arazoak izaten ditu grabazioaren kalitatea nahikoa ona ez denean edo bozgorailua ondo ulertzea zailtzen duten hondoko zaratak daudenean. Baliteke oraindik ere arazo batzuk aurkitzea hiztunak azentu oso handia edo dialektoa duenean. Hizketa-ezagutza etengabe garatzen ari da, baina oraindik ez da guztiz perfektua. Dena ez da hitzei buruzkoa, makinak oraindik ez dira gizakiak egin ditzakeen gauza asko egiteko gai, adibidez ez dira gai gorputz-lengoaia edo norbaiten ahotsaren tonua deszifratzeko. Hala ere, algoritmo aurreratu hauek datu gehiago deszifratzen dituzten heinean, badirudi erronka horietako batzuk zailtasuna gutxitzen dutela. Nork daki zer ekarriko duen etorkizunak? Zaila da igartzea non amaituko den hizketa-aitorpena. Esaterako, Google-k arrakasta handia du dagoeneko Google Translate motorretan ahotsa ezagutzeko softwarea ezartzeko, eta makina etengabe ikasten eta garatzen ari da. Agian egunen batean giza itzultzaileak guztiz ordezkatuko dituzte. Edo agian ez, eguneroko hizkeraren egoerak konplexuegiak dira giza arimaren sakontasuna irakurtzeko gai ez den edozein makina motarentzat.

Noiz erabili ahots-ezagutza?

Gaur egun ia denek dute smartphone bat edo tablet bat. Ahots-ezagutzea gailu horietan ohikoa da. Pertsona baten hizkera ekintza bihurtzeko erabiltzen dira. Zure amonari deitu nahi badiozu, nahikoa da "deitu amona" agintzea eta zure telefonoak dagoeneko zenbakia markatzen ari da zure kontaktu zerrenden bidez idatzi beharrik gabe. Hau hizketa-aitorpena da. Horren beste adibide on bat, Alexa edo Siri da. Ezaugarri hau ere gogor kabletuta daukate beren sisteman. Google-k aukera ere ematen dizu ahots bidez ezer bilatzeko, ezer idatzi gabe.

Izenbururik gabe 8 1

Agian orain jakin-mina duzu nola funtzionatzen duen hori guztia. Bada, funtziona dezan, mikrofonoak bezalako sentsoreak sartu behar dira softwarean, ahozko hitzen soinu-uhinak ezagutu, aztertu eta formatu digitalera bihurtzeko. Ondoren, informazio digitala hitz eta esamoldeen biltegi batean gordetzen den beste informazio batzuekin alderatu behar da. Bat-etortze bat dagoenean softwareak komandoa ezagutu eta horren arabera jokatu dezake.

Puntu honetan aipatu beharreko beste gauza bat WER (hitzen errore-tasa) delakoa da. Errore-zenbakia hitzen guztizkoarekin zatitzen duzun formula da. Beraz, modu sinplean esateko, zehaztasunarekin zerikusi handia du. Helburua, noski, WER baxua izatea da, horrek esan nahi baitu ahozko hitzaren transkripzioa zehatzagoa dela.

Ahots-aitorpena lehen bezainbeste eskatzen da orain. Demagun grabatutako audio fitxategi batetik ahozko hitza testura bihurtu behar baduzu, Gglot-era jo dezakezu. Transkripzio-zerbitzuen hornitzaile bat gara, transkripzio zehatzak prezio justu baten truke eskaintzen dituena. Beraz, ez izan zalantzarik eta jar zaitez harremanetan gure webgune atseginaren bidez.