O papel da intelixencia artificial e a aprendizaxe automática no recoñecemento de voz

Papel da intelixencia artificial e da aprendizaxe automática no recoñecemento de voz

Durante moito tempo, a xente quería poder falar coas máquinas. Desde que comezaron a construír ordenadores, científicos e enxeñeiros intentaron incorporar o recoñecemento de voz ao proceso. No ano 1962, IBM presentou Shoebox, unha máquina de recoñecemento de voz que podía facer cálculos matemáticos sinxelos. Este innovador dispositivo recoñeceu e respondeu a 16 palabras faladas, incluíndo os dez díxitos do "0" ao "9". Cando se pronunciaba un número e palabras de comando como "máis", "menos" e "total", Shoebox instruíu a unha máquina de sumas para calcular e imprimir respostas a problemas aritméticos sinxelos. Shoebox facíase funcionar falando nun micrófono, que convertía os sons da voz en impulsos eléctricos. Un circuíto de medición clasificou estes impulsos en función de varios tipos de sons e activaba a máquina sumadora adxunta a través dun sistema de relés.

Co tempo, esta tecnoloxía desenvolveuse e hoxe en día moitos de nós interactuamos rutineiramente cos ordenadores por voz. Os asistentes de voz máis populares hoxe en día son Alexa de Amazon, Siri de Apple, Google Assistant e Cortana de Microsoft. Estes asistentes poden realizar tarefas ou servizos para un individuo en función de ordes ou preguntas. Son capaces de interpretar o discurso humano e responder mediante voces sintetizadas. Os usuarios poden facer preguntas aos seus asistentes, controlar os dispositivos domóticos e a reprodución multimedia a través da voz e xestionar outras tarefas básicas como correo electrónico, listas de tarefas e calendarios con comandos verbais. Canto máis usemos estes dispositivos de voz, máis nos convertemos. depende da intelixencia artificial (IA) e da aprendizaxe automática.

Intelixencia artificial (IA)

1

Cando dis intelixencia artificial (IA), moitas persoas poden pensar que estás a falar de ciencia ficción, aínda que a IA está moi integrada na nosa vida cotiá. De feito, foi durante décadas. Pero a verdade é que, de feito, foi a ciencia ficción a que a principios do século XX familiarizou ao público con robots semellantes aos humanos artificialmente intelixentes. Nos anos 50 os conceptos da IA foron cada vez máis no foco de interese de científicos e filósofos. Nese tempo, o mozo matemático británico Alan Turing suxeriu que non hai unha razón pola que as máquinas non puidesen (igual que os humanos) resolver problemas e tomar decisións baseándose na información dispoñible. Pero nese tempo, os ordenadores non tiñan a posibilidade de memorizar que é clave para a intelixencia. Todo o que fixeron foi executar ordes. Pero aínda así, foi Alan Turing quen estableceu o obxectivo fundamental e a visión da intelixencia artificial.

Amplamente recoñecido como o pai da IA é John McCarthy que acuñou o termo intelixencia artificial . Para el, a IA era: "a ciencia e a enxeñería de facer máquinas intelixentes". Esta definición foi presentada nunha conferencia no Dartmouth College en 1956 e indicaba o inicio da investigación da IA. A partir de entón a IA floreceu.

No mundo moderno a intelixencia artificial é omnipresente. Fíxose máis popular grazas ao aumento do volume de datos, aos algoritmos avanzados e ás melloras na potencia informática e no almacenamento. A maioría das aplicacións de IA están conectadas a tarefas intelectuais. Usamos a IA para tradución, recoñecemento de obxectos, caras e fala, detección de temas, análise de imaxes médicas, procesamento da linguaxe natural, filtrado de redes sociais, xogos de xadrez, etc.

Aprendizaxe automática

A aprendizaxe automática é unha aplicación da intelixencia artificial e fai referencia a sistemas que teñen a capacidade de mellorar a partir da súa propia experiencia. O máis importante aquí é que o sistema necesita saber recoñecer patróns. Para poder facelo, o sistema debe estar adestrado: o algoritmo alimenta grandes cantidades de datos polo que nalgún momento é capaz de identificar patróns. O obxectivo é permitir que os ordenadores aprendan automaticamente sen intervención ou asistencia humana.

Cando se fala de aprendizaxe automática, é importante mencionar a aprendizaxe profunda. Comecemos dicindo que unha das principais ferramentas empregadas na aprendizaxe profunda son as redes neuronais artificiais. Son algoritmos que están inspirados na estrutura e función do cerebro, aínda que tenden a ser estáticos e simbólicos, e non plásticos e analóxicos como o cerebro biolóxico. Entón, a aprendizaxe profunda é unha forma especializada de aprendizaxe automática baseada nunha rede neuronal artificial, cuxo obxectivo é replicar a forma en que os humanos aprenden e isto serve como unha excelente ferramenta para atopar patróns que son demasiado numerosos para que un programador poida ensinar a máquina. Nos últimos dous anos falouse moito dos coches sen condutor e de como poderían cambiar as nosas vidas. A tecnoloxía de aprendizaxe profunda é a clave aquí, porque reduce os accidentes ao permitir que o coche poida distinguir un peón dunha boca de incendios ou recoñecer unha luz vermella. A tecnoloxía de aprendizaxe profunda tamén xoga o papel principal no control de voz en dispositivos como tabletas, teléfonos, frigoríficos, televisores, etc. As empresas de comercio electrónico adoitan empregar redes neuronais artificiais como un sistema de filtrado que intenta predecir e mostrar os elementos que lle gustaría ao usuario. mercar. A tecnoloxía de aprendizaxe profunda tamén se usa no campo médico. Axuda aos investigadores do cancro a detectar automaticamente as células cancerosas e, polo tanto, supón un enorme avance no tratamento do cancro.

Recoñecemento de voz

A tecnoloxía de recoñecemento de voz serve para identificar palabras e frases da lingua falada e convertelas nun formato lexible para a máquina. Aínda que algúns programas só poden identificar un número limitado de frases, algúns programas de recoñecemento de voz máis sofisticados poden descifrar a fala natural.

Hai obstáculos que superar?

Aínda que é conveniente, a tecnoloxía de recoñecemento de voz non sempre funciona ben e aínda ten algúns problemas por resolver, xa que se desenvolve continuamente. Os problemas que poden xurdir poden incluír, entre outros, os seguintes: a calidade da gravación pode ser inadecuada, pode haber ruídos de fondo que dificulten a comprensión do falante, tamén o falante pode ter un acento ou un dialecto moi forte (¿ escoitou algunha vez o dialecto Geordie?), etc.

O recoñecemento de voz desenvolveuse bastante, pero aínda está lonxe de ser perfecto. Non todo son palabras, a máquina aínda non pode facer moitas cousas que os humanos poden facer: non poden ler a linguaxe corporal nin recoñecer o ton sarcástico da voz de alguén. A xente moitas veces non pronuncia todas as palabras da forma correcta e adoitan acurtar algunhas palabras. Por exemplo, cando falan rápido e informalmente, os falantes nativos de inglés adoitan pronunciar "going to" como "gonna". Todo o anterior, provoca obstáculos para as máquinas que están intentando superar, pero aínda queda moito camiño por diante. É importante destacar que a medida que se alimentan máis e máis datos a eses algoritmos específicos; os retos parecen diminuír. O futuro do recoñecemento de voz automatizado parece ser brillante.

As interfaces de usuario alimentadas por voz están cada vez máis dispoñibles e populares nos fogares. Incluso podería converterse na próxima plataforma en tecnoloxía.

Gglot ofrece recoñecemento de voz automatizado en forma de servizos de transcrición automatizada: convertemos os discursos en texto. O noso servizo é sinxelo de usar, non che custará moito e farase rapidamente!