Le rôle de l'intelligence artificielle et de l'apprentissage automatique dans la reconnaissance vocale

Rôle de l'intelligence artificielle et de l'apprentissage automatique dans la reconnaissance vocale

Pendant longtemps, les gens ont voulu pouvoir parler aux machines. Depuis qu'ils ont commencé à construire des ordinateurs, les scientifiques et les ingénieurs ont essayé d'intégrer la reconnaissance vocale dans le processus. En 1962, IBM a présenté Shoebox, une machine de reconnaissance vocale capable de faire des calculs mathématiques simples. Cet appareil innovant a reconnu et répondu à 16 mots prononcés, y compris les dix chiffres de «0» à «9». Lorsqu'un nombre et des mots de commande tels que «plus», «moins» et «total» ont été prononcés, Shoebox a demandé à un additionneur de calculer et d'imprimer les réponses à des problèmes arithmétiques simples. Shoebox fonctionnait en parlant dans un microphone, qui convertissait les sons vocaux en impulsions électriques. Un circuit de mesure classait ces impulsions en fonction de différents types de sons et activait l'additionneur attaché par un système de relais.

Avec le temps, cette technologie s'est développée et aujourd'hui, nous sommes nombreux à interagir régulièrement avec nos ordinateurs par la voix. Les assistants vocaux les plus populaires aujourd'hui sont Alexa by Amazon, Siri by Apple, Google Assistant et Cortana by Microsoft. Ces assistants peuvent effectuer des tâches ou des services pour un individu en fonction de commandes ou de questions. Ils sont capables d'interpréter la parole humaine et de répondre via des voix synthétisées. Les utilisateurs peuvent poser des questions à leurs assistants, contrôler les appareils domotiques et la lecture multimédia via la voix, et gérer d'autres tâches de base telles que les courriels, les listes de tâches et les calendriers avec des commandes verbales. dépend de l'intelligence artificielle (IA) et de l'apprentissage automatique.

Intelligence artificielle (IA)

1

Quand vous parlez d'intelligence artificielle (IA), de nombreuses personnes pourraient penser que vous parlez de science-fiction, même si l'IA est très intégrée dans notre vie quotidienne. En fait, cela fait des décennies. Mais la vérité est que c'était bien de la science-fiction qui, au début du 20 e siècle, a familiarisé le public avec des robots artificiellement intelligents ressemblant à des humains. Dans les années 50, les concepts de l'IA sont de plus en plus au centre de l'intérêt des scientifiques et des philosophes. À cette époque, le jeune mathématicien britannique Alan Turing a suggéré qu'il n'y avait aucune raison pour laquelle les machines ne pouvaient pas (tout comme les humains) résoudre les problèmes et prendre des décisions basées sur les informations disponibles. Mais à cette époque, les ordinateurs n'avaient pas la possibilité de mémoriser ce qui est essentiel pour l'intelligence. Tout ce qu'ils ont fait était d'exécuter des commandes. Mais quand même, c'est Alan Turing qui a établi l'objectif et la vision fondamentaux de l'intelligence artificielle.

John McCarthy est largement reconnu comme le père de l'IA, qui a inventé le terme intelligence artificielle . Pour lui, l'IA était: «la science et l'ingénierie pour fabriquer des machines intelligentes». Cette définition a été présentée lors d'une conférence au Dartmouth College en 1956 et a indiqué le début de la recherche sur l'IA. Dès lors, l'IA a prospéré.

Dans le monde moderne, l'intelligence artificielle est omniprésente. Il est devenu plus populaire grâce à l'augmentation des volumes de données, aux algorithmes avancés et aux améliorations de la puissance de calcul et du stockage. La plupart des applications d'IA sont liées à des tâches intellectuelles. Nous utilisons l'IA pour la traduction, la reconnaissance d'objets, de visage et de parole, la détection de sujets, l'analyse d'images médicales, le traitement du langage naturel, le filtrage des réseaux sociaux, les jeux d'échecs, etc.

Apprentissage automatique

L'apprentissage automatique est une application de l'intelligence artificielle et fait référence à des systèmes capables de s'améliorer à partir de leur propre expérience. Le plus important ici est que le système doit savoir reconnaître les modèles. Pour être en mesure de faire cela, le système doit être formé: l'algorithme alimente de grandes quantités de données, de sorte qu'à un moment donné, il est capable d'identifier des modèles. Le but est de permettre aux ordinateurs d'apprendre automatiquement sans intervention humaine ni assistance.

Quand on parle de machine learning, il est important de mentionner le deep learning. Commençons par dire que l'un des principaux outils utilisés dans l'apprentissage profond sont les réseaux de neurones artificiels. Ce sont des algorithmes qui s'inspirent de la structure et du fonctionnement du cerveau, même s'ils ont tendance à être statiques et symboliques, et non plastiques et analogues comme le cerveau biologique. Ainsi, l'apprentissage en profondeur est une forme spécialisée d'apprentissage automatique basée sur un réseau neuronal artificiel dont le but est de reproduire la façon dont les humains apprennent et cela constitue un excellent outil pour trouver des modèles qui sont beaucoup trop nombreux pour qu'un programmeur puisse enseigner la machine. Au cours des deux dernières années, on a beaucoup parlé des voitures sans conducteur et de la façon dont elles pourraient changer nos vies. La technologie d'apprentissage en profondeur est la clé ici, car elle réduit les accidents en permettant à la voiture de distinguer un piéton d'une borne d'incendie ou de reconnaître un feu rouge. La technologie d'apprentissage en profondeur joue également le rôle principal dans le contrôle vocal des appareils tels que les tablettes, les téléphones, les réfrigérateurs, les téléviseurs, etc. Les entreprises de commerce électronique utilisent souvent des réseaux de neurones artificiels comme système de filtrage qui tente de prédire et de montrer les éléments qu'un utilisateur souhaite acheter. La technologie d'apprentissage en profondeur est également utilisée dans le domaine médical. Il aide les chercheurs sur le cancer à détecter automatiquement les cellules cancéreuses et représente ainsi un progrès considérable dans le traitement du cancer.

Reconnaissance de la parole

La technologie de reconnaissance vocale sert à identifier les mots et les phrases de la langue parlée et à les convertir en un format lisible pour la machine. Alors que certains programmes ne peuvent identifier qu'un nombre limité de phrases, certains programmes de reconnaissance vocale plus sophistiqués peuvent déchiffrer la parole naturelle.

Y a-t-il des obstacles à surmonter?

Bien que pratique, la technologie de reconnaissance vocale ne se déroule pas toujours sans heurts et elle a encore quelques problèmes à résoudre, car elle est constamment développée. Les problèmes qui peuvent survenir peuvent inclure, entre autres, les suivants: la qualité de l'enregistrement peut être inadéquate, il peut y avoir des bruits en arrière-plan qui rendent difficile la compréhension du locuteur, le locuteur peut également avoir un accent ou un dialecte très fort (avez-vous jamais entendu le dialecte Geordie?), etc.

La reconnaissance vocale s'est beaucoup développée, mais elle est encore loin d'être parfaite. Tout n'est pas seulement une question de mots, la machine ne peut toujours pas faire beaucoup de choses que les humains peuvent: ils ne peuvent pas lire le langage corporel ou reconnaître le ton sarcastique dans la voix de quelqu'un. Les gens ne prononcent souvent pas chaque mot correctement et ils ont tendance à raccourcir certains mots. Par exemple, lorsqu'ils parlent rapidement et de manière informelle, les anglophones prononcent souvent «va à» comme «va». Tout ce qui précède crée des obstacles pour les machines qu'ils essaient de surmonter, mais il y a encore un long chemin devant eux. Il est important de souligner que comme de plus en plus de données alimentent ces algorithmes spécifiques; les défis semblent diminuer. L'avenir de la reconnaissance vocale automatisée semble prometteur.

Les interfaces utilisateur à commande vocale sont de plus en plus disponibles et populaires dans les foyers. Elle pourrait même devenir LA prochaine plateforme technologique.

Gglot propose une reconnaissance vocale automatisée sous la forme de services de transcription automatisés – nous convertissons les discours en texte. Notre service est simple à utiliser, cela ne vous coûtera pas cher et cela se fera rapidement !