Il ruolo dell'intelligenza artificiale e dell'apprendimento automatico nel riconoscimento vocale

Ruolo dell'intelligenza artificiale e dell'apprendimento automatico nel riconoscimento vocale

Per molto tempo le persone volevano poter parlare con le macchine. Da quando hanno iniziato a costruire computer, scienziati e ingegneri hanno cercato di incorporare il riconoscimento vocale nel processo. Nell'anno 1962, IBM ha introdotto Shoebox, una macchina per il riconoscimento vocale in grado di eseguire semplici calcoli matematici. Questo innovativo dispositivo ha riconosciuto e risposto a 16 parole pronunciate, comprese le dieci cifre da "0" a "9". Quando venivano pronunciati un numero e parole di comando come "più", "meno" e "totale", Shoebox ha incaricato una calcolatrice di calcolare e stampare le risposte a semplici problemi aritmetici. Shoebox è stato azionato parlando in un microfono, che ha convertito i suoni della voce in impulsi elettrici. Un circuito di misurazione classificava questi impulsi in base a vari tipi di suoni e attivava la macchina addizionatrice collegata tramite un sistema a relè.

Con il tempo, questa tecnologia si è sviluppata e oggi molti di noi interagiscono regolarmente con i nostri computer a voce. Gli assistenti vocali più popolari oggi sono Alexa di Amazon, Siri di Apple, Google Assistant e Cortana di Microsoft. Questi assistenti possono eseguire attività o servizi per un individuo in base a comandi o domande. Sono in grado di interpretare il linguaggio umano e rispondere tramite voci sintetizzate. Gli utenti possono porre domande ai loro assistenti, controllare i dispositivi di automazione domestica e la riproduzione multimediale tramite la voce e gestire altre attività di base come e-mail, elenchi di cose da fare e calendari con comandi verbali. dipendente dall'intelligenza artificiale (AI) e dall'apprendimento automatico.

Intelligenza artificiale (AI)

1

Quando dici intelligenza artificiale (AI), molte persone potrebbero pensare che tu stia parlando di fantascienza, anche se l'IA è molto radicata nella nostra vita di tutti i giorni. In effetti, lo è da decenni. Ma la verità è, era davvero fantascienza che all'inizio del 20 ° secolo familiarizzato il pubblico con intelligenza artificiale robot simile a quella umana. Negli anni '50 i concetti di AI divennero sempre più al centro dell'interesse di scienziati e filosofi. A quel tempo il giovane matematico britannico Alan Turing suggerì che non c'era motivo per cui le macchine non potessero (proprio come gli esseri umani) risolvere problemi e prendere decisioni sulla base delle informazioni disponibili. Ma a quel tempo, i computer non avevano la possibilità di memorizzare che è la chiave per l'intelligenza. Tutto quello che facevano era eseguire i comandi. Tuttavia, è stato Alan Turing a stabilire l'obiettivo e la visione fondamentali dell'intelligenza artificiale.

Ampiamente riconosciuto come il padre dell'IA è John McCarthy che ha coniato il termine intelligenza artificiale . Per lui l'IA era: "la scienza e l'ingegneria per realizzare macchine intelligenti". Questa definizione fu presentata in una conferenza al Dartmouth College nel 1956 e indicava l'inizio della ricerca sull'IA. Da allora in poi l'IA è fiorita.

Nel mondo moderno l'intelligenza artificiale è onnipresente. È diventato più popolare grazie all'aumento dei volumi di dati, algoritmi avanzati e miglioramenti nella potenza di calcolo e nell'archiviazione. Per lo più l'applicazione AI è collegata a compiti intellettuali. Usiamo l'intelligenza artificiale per la traduzione, il riconoscimento di oggetti, volti e parole, rilevamento di argomenti, analisi di immagini mediche, elaborazione del linguaggio naturale, filtraggio dei social network, gioco di scacchi, ecc.

Apprendimento automatico

L'apprendimento automatico è un'applicazione dell'intelligenza artificiale e si riferisce a sistemi che hanno la capacità di migliorare dalla propria esperienza. La cosa più importante qui è che il sistema deve sapere come riconoscere i modelli. Per poterlo fare, il sistema deve essere addestrato: l'algoritmo alimenta grandi quantità di dati, quindi a un certo punto è in grado di identificare i modelli. L'obiettivo è consentire ai computer di apprendere automaticamente senza l'intervento o l'assistenza umana.

Quando si parla di machine learning, è importante menzionare il deep learning. Cominciamo col dire che uno dei principali strumenti utilizzati nel deep learning sono le reti neurali artificiali. Questi sono algoritmi che si ispirano alla struttura e alla funzione del cervello, anche se tendono ad essere statici e simbolici, e non plastici e analogici come il cervello biologico. Quindi, l'apprendimento profondo è una forma specializzata di apprendimento automatico basata su una rete neurale artificiale il cui obiettivo è replicare il modo in cui gli esseri umani apprendono e questo serve come un ottimo strumento per trovare schemi che sono troppo numerosi perché un programmatore possa insegnare alla macchina. Negli ultimi due anni si è parlato molto di auto senza conducente e di come potrebbero cambiare le nostre vite. La tecnologia di apprendimento profondo è la chiave qui, perché riduce gli incidenti consentendo all'auto di distinguere un pedone da un idrante o di riconoscere un semaforo rosso. La tecnologia di deep learning svolge anche il ruolo principale nel controllo vocale in dispositivi come tablet, telefoni, frigoriferi, TV ecc. Le società di e-commerce utilizzano spesso reti neurali artificiali come sistema di filtraggio che cerca di prevedere e mostrare gli elementi che un utente vorrebbe visualizzare acquistare. La tecnologia di apprendimento profondo è utilizzata anche in campo medico. Aiuta i ricercatori sul cancro a rilevare automaticamente le cellule tumorali e rappresenta quindi un enorme progresso nel trattamento del cancro.

Riconoscimento vocale

La tecnologia di riconoscimento vocale serve per identificare parole e frasi dalla lingua parlata e per convertirle in un formato leggibile per la macchina. Mentre alcuni programmi possono identificare solo un numero limitato di frasi, alcuni programmi di riconoscimento vocale più sofisticati possono decifrare il parlato naturale.

Ci sono ostacoli da superare?

Sebbene sia conveniente, la tecnologia di riconoscimento vocale non sempre funziona senza intoppi e ha ancora alcuni problemi su cui risolvere, poiché è in continuo sviluppo. I problemi che possono sorgere possono includere tra gli altri i seguenti: la qualità della registrazione potrebbe essere inadeguata, potrebbero esserci rumori in sottofondo che rendono difficile la comprensione di chi parla, inoltre chi parla potrebbe avere un accento o dialetto molto forte mai sentito il dialetto Geordie?), ecc.

Il riconoscimento vocale si è sviluppato molto, ma è ancora lontano dall'essere perfetto. Non tutto riguarda solo le parole, la macchina non può ancora fare molte cose che gli umani possono fare: non possono leggere il linguaggio del corpo o riconoscere il tono sarcastico nella voce di qualcuno. Le persone spesso non pronunciano ogni parola nel modo corretto e tendono ad abbreviare alcune parole. Ad esempio, quando si parla velocemente e in modo informale, i madrelingua inglesi spesso pronunciano "going to" come "gonna". Tutto ciò crea ostacoli per le macchine che stanno cercando di superare, ma c'è ancora molta strada da fare. È importante sottolineare che man mano che sempre più dati vengono alimentati a quegli algoritmi specifici; le sfide sembrano diminuire. Il futuro del riconoscimento vocale automatizzato sembra essere luminoso.

Le interfacce utente a comando vocale stanno diventando sempre più disponibili e popolari nelle famiglie. Potrebbe persino diventare LA prossima piattaforma tecnologica.

Gglot offre il riconoscimento vocale automatizzato sotto forma di servizi di trascrizione automatizzata: convertiamo i discorsi in testo. Il nostro servizio è semplice da usare, non ti costerà molto e sarà realizzato velocemente!