El paper de la intel·ligència artificial i l'aprenentatge automàtic en el reconeixement de veu
Paper de la intel·ligència artificial i l'aprenentatge automàtic en el reconeixement de veu
Durant molt de temps, la gent volia poder parlar amb les màquines. Des que van començar a construir ordinadors, científics i enginyers han intentat incorporar el reconeixement de veu al procés. L'any 1962, IBM va presentar Shoebox, una màquina de reconeixement de veu que podia fer càlculs matemàtics senzills. Aquest innovador dispositiu va reconèixer i va respondre a 16 paraules pronunciades, inclosos els deu dígits del "0" al "9". Quan es parlava un nombre i paraules d'ordre com ara "més", "menys" i "total", Shoebox va donar instruccions a una màquina de sumar per calcular i imprimir respostes a problemes aritmètics senzills. La caixa de sabates funcionava parlant en un micròfon, que convertia els sons de la veu en impulsos elèctrics. Un circuit de mesura classificava aquests impulsos segons diversos tipus de sons i activava la màquina sumadora adjunta mitjançant un sistema de relés.
Amb el temps, aquesta tecnologia es va desenvolupar i avui molts de nosaltres interactuem habitualment amb els ordinadors per veu. Els assistents de veu més populars avui són Alexa d'Amazon, Siri d'Apple, Google Assistant i Cortana de Microsoft. Aquests assistents poden realitzar tasques o serveis per a un individu basant-se en ordres o preguntes. Són capaços d'interpretar la parla humana i respondre mitjançant veus sintetitzades. Els usuaris poden fer preguntes als seus assistents, controlar els dispositius domòtics i la reproducció multimèdia mitjançant la veu i gestionar altres tasques bàsiques, com ara el correu electrònic, les llistes de tasques pendents i els calendaris amb ordres verbals. Com més utilitzem aquests dispositius basats en veu, més ens tornem. depenent de la intel·ligència artificial (IA) i l'aprenentatge automàtic.
Intel·ligència artificial (IA)
Quan dius intel·ligència artificial (IA), molta gent podria pensar que estàs parlant de ciència ficció, tot i que la intel·ligència artificial està molt integrada a la nostra vida quotidiana. De fet, ho ha estat durant dècades. Però la veritat és que, de fet, va ser la ciència ficció la que a principis del segle XX va familiaritzar el públic amb robots humans artificialment intel·ligents. Als anys 50 els conceptes d'IA van ser cada cop més centrats en l'interès de científics i filòsofs. En aquell temps, el jove matemàtic britànic Alan Turing va suggerir que no hi ha cap raó per la qual les màquines no poguessin (igual que els humans) resoldre problemes i prendre decisions basant-se en la informació disponible. Però en aquell temps, els ordinadors no tenien la possibilitat de memoritzar que és clau per a la intel·ligència. Tot el que van fer va ser executar ordres. Però tot i així, va ser Alan Turing qui va establir l'objectiu i la visió fonamentals de la intel·ligència artificial.
Ampliament reconegut com el pare de la IA és John McCarthy, que va encunyar el terme intel·ligència artificial . Per a ell la IA era: "la ciència i l'enginyeria de fer màquines intel·ligents". Aquesta definició es va presentar en una conferència al Dartmouth College l'any 1956 i va indicar l'inici de la investigació en IA. A partir de llavors la IA va florir.
En el món modern la intel·ligència artificial és omnipresent. S'ha fet més popular gràcies a l'augment del volum de dades, els algorismes avançats i les millores en la potència de càlcul i l'emmagatzematge. Majoritàriament, l'aplicació d'IA està connectada a tasques intel·lectuals. Utilitzem la IA per a la traducció, el reconeixement d'objectes, la cara i la veu, la detecció de temes, l'anàlisi d'imatges mèdiques, el processament del llenguatge natural, el filtratge de xarxes socials, el joc d'escacs, etc.
Aprenentatge automàtic
L'aprenentatge automàtic és una aplicació de la intel·ligència artificial i fa referència a sistemes que tenen la capacitat de millorar a partir de la seva pròpia experiència. El més important aquí és que el sistema ha de saber reconèixer patrons. Per poder fer-ho, cal entrenar el sistema: l'algoritme alimenta grans quantitats de dades de manera que en algun moment és capaç d'identificar patrons. L'objectiu és permetre que els ordinadors aprenguin automàticament sense intervenció ni ajuda humana.
Quan es parla d'aprenentatge automàtic, és important esmentar l'aprenentatge profund. Comencem dient que una de les principals eines utilitzades en l'aprenentatge profund són les xarxes neuronals artificials. Són algorismes que s'inspiren en l'estructura i la funció del cervell, tot i que tendeixen a ser estàtics i simbòlics, i no plàstics i analògics com el cervell biològic. Per tant, l'aprenentatge profund és una forma especialitzada d'aprenentatge automàtic basat en una xarxa neuronal artificial, l'objectiu de la qual és replicar la manera com els humans aprenen i això serveix com una gran eina per trobar patrons massa nombrosos perquè un programador ensenyi la màquina. En els últims dos anys s'ha parlat molt dels cotxes sense conductor i de com podrien canviar les nostres vides. La tecnologia d'aprenentatge profund és la clau aquí, perquè redueix els accidents en permetre que el cotxe distingeix un vianant d'una boca d'incendi o reconegui un semàfor vermell. La tecnologia d'aprenentatge profund també juga el paper principal en el control de veu en dispositius com tauletes, telèfons, neveres, televisors, etc. Les empreses de comerç electrònic sovint utilitzen xarxes neuronals artificials com a sistema de filtratge que intenta predir i mostrar els articles que un usuari voldria mostrar. comprar. La tecnologia d'aprenentatge profund també s'utilitza en l'àmbit mèdic. Ajuda als investigadors del càncer a detectar automàticament cèl·lules canceroses i, per tant, representa un gran progrés en el tractament del càncer.
Reconeixement de veu
La tecnologia de reconeixement de veu serveix per identificar paraules i frases del llenguatge parlat i per convertir-les en un format llegible per a la màquina. Tot i que alguns programes només poden identificar un nombre limitat de frases, alguns programes de reconeixement de veu més sofisticats poden desxifrar la parla natural.
Hi ha obstacles per superar?
Tot i que és convenient, la tecnologia de reconeixement de veu no sempre funciona bé i encara té alguns problemes per resoldre, ja que es desenvolupa contínuament. Els problemes que poden sorgir poden incloure, entre d'altres, els següents: la qualitat de l'enregistrament pot ser inadequada, pot haver-hi sorolls de fons que dificulten la comprensió de l'orador, també l'orador pot tenir un accent o dialecte molt fort (va heu sentit mai el dialecte Geordie?), etc.
El reconeixement de veu s'ha desenvolupat força, però encara està lluny de ser perfecte. No tot es tracta només de paraules, la màquina encara no pot fer moltes coses que els humans: no poden llegir el llenguatge corporal ni reconèixer el to sarcàstic de la veu d'algú. La gent sovint no pronuncia totes les paraules de la manera correcta i tendeixen a escurçar algunes paraules. Per exemple, quan parlen ràpid i de manera informal, els angloparlants nadius solen pronunciar "going to" com "gonna". Tot l'anterior, provoca obstacles per a les màquines que intenten superar, però encara queda molt camí per davant. És important destacar que a mesura que s'alimenten més i més dades a aquests algorismes específics; els reptes semblen disminuir. El futur del reconeixement automatitzat de la veu sembla ser brillant.
Les interfícies d'usuari alimentades per veu són cada cop més disponibles i populars a les llars. Fins i tot podria convertir-se en LA propera plataforma tecnològica.
Gglot ofereix reconeixement de veu automatitzat en forma de serveis de transcripció automatitzat: convertim els discursos en text. El nostre servei és senzill d'utilitzar, no et costarà gaire i es farà ràpidament!