Rolul inteligenței artificiale și al învățării automate în recunoașterea vorbirii

Rolul inteligenței artificiale și al învățării automate în recunoașterea vorbirii

Multă vreme, oamenii și-au dorit să poată vorbi cu mașinile. De când au început să construiască computere, oamenii de știință și inginerii au încercat să încorporeze recunoașterea vorbirii în proces. În anul 1962, IBM a introdus Shoebox, o mașină de recunoaștere a vorbirii care putea face calcule matematice simple. Acest dispozitiv inovator a recunoscut și a răspuns la 16 cuvinte rostite, inclusiv cele zece cifre de la „0” la „9”. Când au fost rostite un număr și cuvinte de comandă precum „plus”, „minus” și „total”, Shoebox a instruit o mașină de adăugare să calculeze și să imprime răspunsuri la probleme aritmetice simple. Cutia de pantofi era acționată vorbind într-un microfon, care transforma sunetele vocale în impulsuri electrice. Un circuit de măsurare a clasificat aceste impulsuri în funcție de diferite tipuri de sunete și a activat mașina de adăugare atașată printr-un sistem de relee.

Cu timpul, această tehnologie s-a dezvoltat și astăzi mulți dintre noi interacționăm în mod obișnuit cu computerele prin voce. Cei mai populari asistenți vocali astăzi sunt Alexa de la Amazon, Siri de la Apple, Google Assistant și Cortana de la Microsoft. Acești asistenți pot îndeplini sarcini sau servicii pentru o persoană pe baza comenzilor sau întrebărilor. Ei sunt capabili să interpreteze vorbirea umană și să răspundă prin voci sintetizate. Utilizatorii își pot adresa întrebări asistenților, pot controla dispozitivele de automatizare a locuinței și redarea media prin voce și pot gestiona alte sarcini de bază, cum ar fi e-mailul, listele de sarcini și calendarele cu comenzi verbale. Cu cât folosim mai mult aceste dispozitive cu voce, cu atât devenim mai mult. dependent de inteligența artificială (AI) și de învățarea automată.

Inteligența artificială (AI)

1

Când spui inteligență artificială (AI), mulți oameni ar putea crede că vorbești despre science fiction, chiar dacă AI este foarte încorporată în viața noastră de zi cu zi. De fapt, a fost de zeci de ani. Dar adevărul este că, într-adevăr, science-fiction a fost cea care la începutul secolului al XX- lea a familiarizat publicul cu roboți asemănătoare oamenilor inteligenți artificial. În anii 50, conceptele de IA au ajuns din ce în ce mai mult în centrul interesului oamenilor de știință și al filozofilor. În acea perioadă, tânărul matematician britanic Alan Turing a sugerat că nu există un motiv pentru care mașinile nu ar putea (la fel ca oamenii) să rezolve probleme și să ia decizii pe baza informațiilor disponibile. Dar în acea perioadă, computerele nu aveau posibilitatea de a memora ceea ce este cheia pentru inteligență. Tot ce au făcut a fost să execute comenzi. Dar, totuși, Alan Turing a fost cel care a stabilit scopul și viziunea fundamentală a inteligenței artificiale.

Pe scară largă recunoscut ca părintele inteligenței artificiale este John McCarthy, care a inventat termenul de inteligență artificială . Pentru el AI a fost: „știința și ingineria de a face mașini inteligente”. Această definiție a fost prezentată la o conferință la Dartmouth College în 1956 și a indicat începutul cercetării AI. De atunci AI a înflorit.

În lumea modernă, inteligența artificială este omniprezentă. A devenit mai popular datorită volumului crescut de date, algoritmilor avansați și îmbunătățirilor în puterea de calcul și stocarea. În cea mai mare parte, aplicația AI este conectată la sarcini intelectuale. Folosim AI pentru traducere, recunoașterea obiectelor, a feței și a vorbirii, detectarea subiectelor, analiza imaginilor medicale, procesarea limbajului natural, filtrarea rețelelor sociale, jocul de șah etc.

Învățare automată

Învățarea automată este o aplicație a inteligenței artificiale și se referă la sisteme care au capacitatea de a se îmbunătăți din propria experiență. Cel mai important lucru aici este că sistemul trebuie să știe cum să recunoască tiparele. Pentru a putea face acest lucru, sistemul trebuie să fie antrenat: algoritmul alimentează cantități mari de date, astfel încât la un moment dat este capabil să identifice modele. Scopul este de a permite computerelor să învețe automat, fără intervenție sau asistență umană.

Când vorbim despre învățarea automată, este important să menționăm învățarea profundă. Să începem prin a spune că unul dintre instrumentele principale folosite în deep learning sunt rețelele neuronale artificiale. Aceștia sunt algoritmi care sunt inspirați de structura și funcția creierului, deși tind să fie statici și simbolici, și nu plastici și analogi precum creierul biologic. Deci, învățarea profundă este o formă specializată de învățare automată bazată pe o rețea neuronală artificială, al cărei scop este de a reproduce modul în care oamenii învață și aceasta servește ca un instrument excelent pentru a găsi modele care sunt mult prea numeroase pentru ca un programator să predea mașina. În ultimii doi ani s-a vorbit mult despre mașinile fără șofer și despre cum ne-ar putea schimba viața. Tehnologia de învățare profundă este cheia aici, deoarece reduce accidentele, permițând mașinii să distingă un pieton de un hidrant de incendiu sau să recunoască o lumină roșie. Tehnologia de învățare profundă joacă, de asemenea, rolul principal în controlul vocal în dispozitive precum tablete, telefoane, frigidere, televizoare etc. Companiile de comerț electronic folosesc adesea rețele neuronale artificiale ca sistem de filtrare care încearcă să prezică și să arate articolele pe care un utilizator ar dori să le facă. Cumpără. Tehnologia de învățare profundă este folosită și în domeniul medical. Ajută cercetătorii în cancer să detecteze automat celulele canceroase și, prin urmare, reprezintă un progres extraordinar în tratamentul cancerului.

Recunoaștere a vorbirii

Tehnologia de recunoaștere a vorbirii servește la identificarea cuvintelor și a expresiilor din limba vorbită și pentru a le converti într-un format care poate fi citit pentru aparat. În timp ce unele programe pot identifica doar un număr limitat de fraze, unele programe mai sofisticate de recunoaștere a vorbirii pot descifra vorbirea naturală.

Există obstacole de depășit?

Deși este convenabilă, tehnologia de recunoaștere a vorbirii nu funcționează întotdeauna fără probleme și încă mai are câteva probleme de rezolvat, deoarece este dezvoltată continuu. Problemele care pot apărea pot include, printre altele, următoarele: calitatea înregistrării ar putea fi inadecvată, ar putea exista zgomote în fundal care să facă dificilă înțelegerea vorbitorului, de asemenea, vorbitorul ar putea avea un accent sau un dialect cu adevărat puternic (ai ai auzit vreodată dialectul Geordie?), etc.

Recunoașterea vorbirii s-a dezvoltat destul de mult, dar este încă departe de a fi perfectă. Nu totul este doar despre cuvinte, mașina încă nu poate face multe lucruri pe care oamenii le pot: nu pot citi limbajul corpului sau nu pot recunoaște tonul sarcastic din vocea cuiva. De multe ori, oamenii nu pronunță fiecare cuvânt în mod corect și au tendința de a scurta unele cuvinte. De exemplu, când vorbesc rapid și informal, vorbitorii nativi de engleză pronunță adesea „going to” ca „gonna”. Toate cele de mai sus provoacă obstacole pentru mașinile pe care încearcă să le depășească, dar mai există un drum lung în fața lor. Este important de subliniat faptul că, pe măsură ce din ce în ce mai multe date sunt transmise acelor algoritmi specifici; provocările par să scadă. Viitorul recunoașterii automate a vorbirii pare să fie luminos.

Interfețele de utilizator alimentate prin voce devin din ce în ce mai disponibile și populare în gospodării. S-ar putea chiar să devină următoarea platformă în tehnologie.

Gglot oferă recunoaștere automată a vorbirii sub formă de servicii de transcriere automată – convertim discursurile în text. Serviciul nostru este simplu de folosit, nu te va costa mult și se va face rapid!