Rollen med kunstig intelligens og maskinindlæring i talegenkendelse
Rollen for kunstig intelligens og maskinindlæring i talegenkendelse
I lang tid ønskede folk at kunne tale med maskiner. Lige siden de begyndte at bygge computere, har videnskabsmand og ingeniører forsøgt at indarbejde talegenkendelse i processen. I år 1962 introducerede IBM Shoebox, en talegenkendelsesmaskine, der kunne lave enkle matematiske beregninger. Denne innovative enhed genkendte og reagerede på 16 talte ord, inklusive de ti cifre fra "0" til "9." Når et tal og kommandoord som "plus", "minus" og "total" blev talt, instruerede Shoebox en tilføjende maskine til at beregne og udskrive svar på enkle aritmetiske problemer. Shoebox blev betjent ved at tale i en mikrofon, der konverterede stemmelyde til elektriske impulser. Et målekredsløb klassificerede disse impulser efter forskellige lyde og aktiverede den tilsluttede tilføjelsesmaskine gennem et relæsystem.
Med tiden udviklede denne teknologi sig, og i dag interagerer mange af os rutinemæssigt med vores computere med stemmen. De mest populære stemmeassistenter i dag er Alexa af Amazon, Siri af Apple, Google Assistant og Cortana af Microsoft. Disse assistenter kan udføre opgaver eller tjenester for en person baseret på kommandoer eller spørgsmål. De er i stand til at fortolke menneskelig tale og reagere via syntetiserede stemmer. Brugere kan stille deres assistenter spørgsmål, kontrollere hjemmeautomatiseringsenheder og medieafspilning via stemme og administrere andre grundlæggende opgaver såsom e-mail, opgavelister og kalendere med verbale kommandoer. Jo mere vi bruger disse stemmestyrede enheder, jo mere bliver vi afhængig af kunstig intelligens (AI) og maskinindlæring.
Kunstig intelligens (AI)
Når du siger kunstig intelligens (AI), tror måske mange mennesker, at du taler om science fiction, selvom AI er meget indlejret i vores hverdag. Faktisk har det været i årtier. Men sandheden er, det var faktisk science fiction, at i begyndelsen af det 20. århundrede kendte offentligheden med kunstigt intelligente menneskelignende robotter. I 50'erne kom begreberne AI mere og mere i fokus for forskere og filosoffer. På den tid foreslog den unge britiske matematiker Alan Turing, at der ikke er en grund til, at maskiner ikke (ligesom mennesker) kunne løse problemer og træffe beslutninger baseret på tilgængelig information. Men på det tidspunkt havde computere ikke muligheden for at huske, hvilket er nøglen til intelligens. Alt, hvad de gjorde, var at udføre kommandoer. Men stadig var det Alan Turing, der etablerede det grundlæggende mål og visionen om kunstig intelligens.
Bredt anerkendt som far til AI er John McCarthy, der opfandt udtrykket kunstig intelligens . For ham var AI: "videnskaben og teknologien ved at fremstille intelligente maskiner". Denne definition blev præsenteret på en konference på Dartmouth College i 1956, og det angav begyndelsen på AI-forskning. Fra da af blomstrede AI.
I den moderne verden er kunstig intelligens allestedsnærværende. Det er blevet mere populært takket være øgede datamængder, avancerede algoritmer og forbedringer i computerkraft og lagring. For det meste er AI-applikation forbundet med intellektuelle opgaver. Vi bruger AI til oversættelse, objekt-, ansigts- og talegenkendelse, emnedetektering, medicinsk billedanalyse, naturlig sprogbehandling, socialt netværk, filtrering, skakspil osv.
Maskinelæring
Maskinindlæring er en anvendelse af kunstig intelligens, og den henviser til systemer, der har evnen til at forbedre sig fra deres egen erfaring. Det vigtigste her er, at systemet skal vide, hvordan man genkender mønstre. For at kunne gøre det skal systemet trænes: algoritmen føder store mængder data, så det på et tidspunkt er i stand til at identificere mønstre. Målet er at lade computere lære automatisk uden menneskelig indgriben eller hjælp.
Når vi taler om maskinlæring, er det vigtigt at nævne dyb læring. Lad os starte med at sige, at et af de vigtigste værktøjer, der bruges i dyb læring, er kunstige neurale netværk. Det er algoritmer, der er inspireret af hjernens struktur og funktion, selvom de har tendens til at være statiske og symbolske, og ikke plastiske og analoge som den biologiske hjerne. Så dyb læring er en specialiseret form for maskinindlæring baseret på kunstigt neuralt netværk, hvis mål er at replikere den måde, mennesker lærer på, og dette fungerer som et godt værktøj til at finde mønstre, der er alt for mange til, at en programmør kan undervise i maskinen. I de sidste par år har der været meget snak om førerløse biler og hvordan de kunne ændre vores liv. Deep learning-teknologien er nøglen her, fordi den reducerer ulykker ved at sætte bilen i stand til at skelne en fodgænger fra en brandhane eller genkende et rødt lys. Deep learning-teknologi spiller også hovedrollen i stemmestyring i enheder som tablets, telefoner, køleskabe, tv osv. E-handelsvirksomheder bruger ofte kunstige neurale netværk som et filtreringssystem, der forsøger at forudsige og vise de emner, som en bruger gerne vil købe. Deep learning-teknologi bruges også inden for medicinsk område. Det hjælper kræftforskere med automatisk at opdage kræftceller og repræsenterer således et enormt fremskridt inden for kræftbehandling.
Tale genkendelse
Talegenkendelsesteknologi tjener til at identificere ord og sætninger fra det talte sprog og konvertere dem til et læsbart format til maskinen. Mens nogle programmer kun kan identificere et begrænset antal sætninger, kan nogle mere sofistikerede talegenkendelsesprogrammer dechiffrere naturlig tale.
Er der forhindringer at overvinde?
Selvom det er praktisk, går talegenkendelsesteknologi ikke altid glat, og den har stadig et par problemer at arbejde igennem, da den kontinuerligt udvikles. Problemer, der kan opstå, kan blandt andet omfatte følgende: optagelsens kvalitet kan være utilstrækkelig, der kan være lyde i baggrunden, der gør det vanskeligt at forstå højttaleren, også højttaleren kan have en rigtig stærk accent eller dialekt (gjorde du nogensinde hørt Geordie-dialekten?) osv.
Talegenkendelse har udviklet sig en hel del, men den er stadig langt fra perfekt. Ikke alt handler kun om ord, maskinen kan stadig ikke gøre mange ting, som mennesker kan: de kan ikke læse kropssprog eller genkende den sarkastiske tone i andres stemme. Folk udtaler ofte ikke hvert ord på den rette måde, og de har tendens til at forkorte nogle ord. For eksempel når man taler hurtigt og uformelt, udtaler engelske indfødte ofte "at gå til" som "skal". Alt det ovenstående forårsager forhindringer for maskiner, som de prøver at overvinde, men der er stadig en lang vej foran dem. Det er vigtigt at fremhæve, at da flere og flere data tilføres disse specifikke algoritmer; udfordringerne ser ud til at falde. Fremtiden for automatiseret talegenkendelse ser ud til at være lys.
Stemmestyrede brugergrænseflader bliver stadig mere tilgængelige og populære i husholdninger. Det kan endda blive den næste platform inden for teknologi.
Gglot tilbyder automatisk talegenkendelse i form af automatiserede transskriptionstjenester – vi konverterer taler til tekst. Vores service er enkel at bruge, det vil ikke koste dig meget, og det vil blive gjort hurtigt!