Què és exactament el reconeixement de veu?
Reconeixement de veu
El que cal saber sobre el reconeixement de veu
Quan parlem de reconeixement de veu, normalment ens referim a un programari que té la capacitat de reconèixer la paraula parlada i anotar-la en un programa perquè al final tinguis tot el que s'ha dit en format escrit. També s'anomena sovint "de veu a text". Al principi, aquell programari tenia possibilitats molt limitades, de manera que només podies convertir un nombre limitat de frases. Amb el temps, la tecnologia que hi ha darrere del programari de reconeixement de veu s'ha desenvolupat molt i ara és molt més sofisticada, de manera que pot reconèixer diferents idiomes i fins i tot diferents accents. Però és clar, encara hi ha feina per fer en aquest camp.
També és important tenir en compte que el reconeixement de veu no és el mateix que el reconeixement de veu, tot i que de vegades la gent utilitza els dos termes per al mateix. El reconeixement de veu s'utilitza per identificar la persona que parla i no per notar el que es diu.
Una breu història del reconeixement de parla i la tecnologia relacionada
En aquest article, explicarem breument la història i la tecnologia darrere de l'auge del reconeixement de veu.
Des dels albors de l'era digital, la gent tenia la necessitat de poder comunicar-se d'alguna manera amb les màquines. Després que es va inventar el primer tipus d'ordinador digital, nombrosos científics i enginyers han intentat de diverses maneres implementar d'alguna manera el reconeixement de la parla en aquest procés. Un any crucial d'aquest procés va ser el 1962, quan IBM va revelar Shoebox, una màquina bàsica de reconeixement de veu que era capaç de fer càlculs matemàtics senzills. Si l'usuari d'aquest protoordinador parlava en un micròfon, aquesta màquina era capaç de reconèixer fins a sis paraules de control com "més" o "menys". Amb el pas del temps, la tecnologia que hi ha darrere d'això es va desenvolupar i avui dia és molt habitual interactuar amb ordinadors per veu. Hi ha molts motors de reconeixement de veu famosos com Siri o Alexa. És important tenir en compte que aquests dispositius de veu depenen de la intel·ligència artificial (IA) i l'aprenentatge automàtic.
Quan s'esmenta la intel·ligència artificial (IA), pot semblar alguna cosa d'una pel·lícula de ciència-ficció, però la veritat és que en l'actualitat la intel·ligència artificial té un paper important al nostre món. De fet, la IA ja està molt present en el nostre dia a dia, ja que molts programes i aplicacions ja l'utilitzen. Però va ser ciència ficció a principis del segle XX, quan va sorgir el terme. A finals de 1950, els conceptes d'IA es van fer més destacats i van ser el focus d'interès de molts científics i filòsofs. En aquell temps, un matemàtic britànic molt ambiciós anomenat Alan Turing va proposar que les màquines poden resoldre problemes i prendre decisions per si mateixes, basant-se en l'entrada de la informació disponible. El problema era que els ordinadors encara no tenien la possibilitat de memoritzar aquestes dades, que és un pas crucial per al desenvolupament de la intel·ligència artificial. Tot el que podien fer aleshores era executar ordres senzilles.
Un altre nom important en el desenvolupament de la IA és John McCarthy, que va encunyar per primer cop el mateix terme "intel·ligència artificial". McCarthy va afirmar que la IA és: "la ciència i l'enginyeria de fabricar màquines intel·ligents". Aquesta definició va sortir a la llum en una conferència fonamental al Dartmouth College el 1956. A partir d'aleshores, la IA va començar a desenvolupar-se a un ritme frenètic.
Avui dia, la intel·ligència artificial en les seves diferents formes està present a tot arreu. Ha crescut fins a una adopció massiva, principalment a causa de l'augment del volum global de dades que s'intercanvien a tot el món cada dia. S'utilitza en algorismes avançats i va donar lloc a millores en l'emmagatzematge i la potència de càlcul. La IA s'utilitza per a molts propòsits, per exemple, la traducció, la transcripció, la parla, el reconeixement de cares i objectes, l'anàlisi d'imatges mèdiques, el processament de llenguatges naturals, diversos filtres de xarxes socials, etc. Recordeu aquell partit d'escacs entre el gran mestre Gari Kasparov i l'IA d'escacs Deep Blue?
L'aprenentatge automàtic és una altra aplicació molt important de la intel·ligència artificial. En resum, es refereix a qualsevol sistema que tingui la capacitat d'aprendre i millorar a partir de la base de dades de la seva pròpia experiència. Això funciona mitjançant el reconeixement de patrons. Perquè el sistema ho faci, ha de poder ser entrenat. L'algorisme del sistema rep una entrada de grans quantitats de dades i, en un moment donat, és capaç d'identificar patrons a partir d'aquestes dades. L'objectiu final d'aquest procés és permetre que aquests sistemes informàtics aprenguin de manera autònoma, sense necessitat de cap intervenció o assistència humana.
Una altra cosa que és molt important esmentar juntament amb l'aprenentatge automàtic és l'aprenentatge profund. Una de les eines més importants en el procés d'aprenentatge profund són les anomenades xarxes neuronals artificials. Són algorismes avançats, similars a l'estructura i funció del cervell humà. No obstant això, són estàtics i simbòlics, a diferència del cervell biològic que és plàstic i més basat en analògics. En resum, aquest aprenentatge profund és una manera molt especialitzada d'aprenentatge automàtic, basada principalment en xarxes neuronals artificials. L'objectiu de l'aprenentatge profund és replicar de prop els processos d'aprenentatge humà. La tecnologia d'aprenentatge profund és molt útil i juga un paper important en diversos dispositius controlats per la veu: tauletes, televisors, telèfons intel·ligents, neveres, etc. Les xarxes neuronals artificials també s'utilitzen com una mena de sistema de filtrat que té com a objectiu predir els elements. que l'usuari compraria en el futur. La tecnologia d'aprenentatge profund també s'utilitza molt en l'àmbit mèdic. És molt important per als investigadors del càncer, perquè ajuda a detectar automàticament les cèl·lules canceroses.
Ara tornarem al reconeixement de veu. Aquesta tecnologia, com ja hem comentat, pretén identificar diverses paraules i frases de la llengua parlada. Després els converteix en un format que la màquina sigui capaç de llegir. Els programes bàsics només identifiquen un petit nombre de frases clau, però alguns programes de reconeixement de veu més avançats són capaços de desxifrar tot tipus de parla natural. La tecnologia de reconeixement de veu és convenient en la majoria dels casos, però de vegades es troba amb problemes quan la qualitat de l'enregistrament no és prou bona o quan hi ha sorolls de fons que dificulten la comprensió correcta de l'altaveu. També pot trobar alguns problemes quan el parlant té un accent molt fort o un dialecte. El reconeixement de la parla està en constant desenvolupament, però encara no és del tot perfecte. No tot es tracta de paraules, les màquines encara no són capaces de fer moltes coses que els humans poden fer, per exemple, no són capaços de desxifrar el llenguatge corporal o el to de la veu d'algú. Tanmateix, a mesura que aquests algorismes avançats desxifran més dades, sembla que alguns d'aquests reptes disminueixen en dificultat. Qui sap què aportarà el futur? És difícil predir on acabarà el reconeixement de veu. Per exemple, Google ja està tenint molt èxit a l'hora d'implementar programari de reconeixement de veu als motors de Google Translate, i la màquina està aprenent i desenvolupant-se constantment. Potser algun dia substituiran completament els traductors humans. O potser no, les situacions quotidianes de parla són massa complexes per a qualsevol tipus de màquina que no sigui capaç de llegir la profunditat de l'ànima humana.
Quan utilitzar el reconeixement de veu?
Actualment gairebé tothom té un telèfon intel·ligent o una tauleta. El reconeixement de veu és una característica comuna en aquests dispositius. S'utilitzen per convertir el discurs d'una persona en acció. Si voleu trucar a la vostra àvia, n'hi ha prou que ordeneu "truca a l'àvia" i el vostre telèfon intel·ligent ja està marcant el número sense que hàgiu d'escriure a través de les vostres llistes de contactes. Això és el reconeixement de la parla. Un altre bon exemple d'això, és Alexa o Siri. També tenen aquesta funció cablejada al seu sistema. Google també us ofereix l'opció de cercar qualsevol cosa per veu, sense escriure res.
Potser ara teniu curiositat per saber com funciona tot això. Bé, perquè funcioni, s'han d'incorporar sensors com els micròfons al programari perquè les ones sonores de les paraules pronunciades siguin reconegudes, analitzades i convertides a un format digital. Aleshores, la informació digital s'ha de comparar amb una altra informació que s'emmagatzema en algun tipus de repositori de paraules i expressions. Quan hi ha una coincidència, el programari pot reconèixer l'ordre i actuar en conseqüència.
Una cosa més que cal esmentar en aquest punt és l'anomenat WER (taxa d'error de paraula). Aquesta és una fórmula en la qual es divideix el nombre d'error amb el total de paraules. Per tant, per dir-ho en termes simples, té molt a veure amb la precisió. L'objectiu és, per descomptat, tenir un WER baix, perquè això vol dir que la transcripció de la paraula parlada és més precisa.
El reconeixement de la parla està tan sol·licitat com mai. Si també necessiteu convertir la paraula parlada d'un fitxer d'àudio gravat a text, podeu recórrer a Gglot. Som un proveïdor de serveis de transcripció que ofereix transcripcions precises a un preu just. Per tant, no dubteu a posar-vos en contacte a través del nostre lloc web fàcil d'utilitzar.