Hvad er præcis talegenkendelse?
Tale genkendelse
Hvad du har brug for at vide om talegenkendelse
Når vi taler om talegenkendelse, mener vi normalt en software, der har evnen til at genkende det talte ord og skrive det ned i et program, så i sidste ende har du alt, hvad der er talt i skriftligt format. Det omtales også ofte som "tale til tekst". I starten havde denne software meget begrænsede muligheder, så du kun kunne konvertere et begrænset antal sætninger. Med tiden har teknologien bag software til talegenkendelse udviklet sig meget, og den er nu meget mere sofistikeret, så den kan genkende forskellige sprog og endda forskellige accenter. Men selvfølgelig er der stadig arbejde, der skal udføres på dette felt.
Det er også vigtigt at bemærke, at talegenkendelse ikke er den samme som stemmegenkendelse, selvom folk nogle gange bruger de to udtryk til det samme. Stemmegenkendelse bruges til identifikation af den person, der taler, og ikke for at bemærke, hvad der blev sagt.
En kort historie med talegenkendelse og relateret teknologi
I denne artikel vil vi kort forklare historien og teknologien bag stigningen i talegenkendelse.
Lige siden begyndelsen af den digitale tidsalder havde folk en trang til på en eller anden måde at kunne kommunikere med maskiner. Efter at den første slags digitale computer blev opfundet, har adskillige forskere og ingeniører forsøgt på forskellige måder på en eller anden måde at implementere talegenkendelse i denne proces. Et afgørende år for denne proces var 1962, da IBM afslørede Shoebox, en grundlæggende talegenkendelsesmaskine, der var i stand til at lave enkle matematiske beregninger. Hvis brugeren af denne protocomputer talte ind i en mikrofon, kunne denne maskine genkende op til seks kontrolord som “plus” eller “minus”. Over tid udviklede teknologien bag dette sig, og i dag er det meget almindeligt at interagere med computere med stemmen. Der er mange berømte talegenkendelsesmotorer som Siri eller Alexa. Det er vigtigt at bemærke, at disse stemmedrevne enheder er afhængige af kunstig intelligens (AI) og maskinindlæring.
Når kunstig intelligens (AI) nævnes, lyder det måske som noget fra en science fiction-film, men sandheden er, at AI i dag og tid spiller AI en stor rolle i vores verden. Faktisk er AI allerede meget til stede i vores hverdag, da mange programmer og apps allerede bruger det. Men det var science fiction i begyndelsen af det 20. århundrede, da udtrykket opstod. I slutningen af 1950 blev begreberne AI mere fremtrædende og var fokus for mange forskere og filosoffer. På den tid kom en meget ambitiøs britisk matematiker ved navn Alan Turing med et forslag om, at maskiner kan løse problemer og træffe beslutninger alene baseret på input af tilgængelig information. Problemet var, at computere endnu ikke havde mulighed for at huske disse data, hvilket er et afgørende skridt for udvikling af kunstig intelligens. Alt, hvad de kunne gøre dengang, var at udføre enkle kommandoer.
Et andet vigtigt navn i udviklingen af AI er John McCarthy, der først opfandt selve udtrykket "kunstig intelligens". McCarthy erklærede, at AI er: "videnskaben og teknologien ved at fremstille intelligente maskiner". Denne definition kom frem på en seminarkonference på Dartmouth College i 1956. Fra da begyndte AI at udvikle sig i et hektisk tempo.
I dag er kunstig intelligens i dens forskellige form til stede overalt. Det er vokset til masseadoption, hovedsageligt på grund af stigning i den samlede mængde data, der udveksles verden over hver dag. Det bruges i avancerede algoritmer, og det gav anledning til forbedringer i lager- og computerkraft. AI bruges til mange formål, for eksempel oversættelse, transskription, tale, genkendelse af ansigt og objekt, analyse af medicinske billeder, behandling af naturlige sprog, forskellige sociale netværksfiltre og så videre. Husk den skakkamp mellem stormester Gari Kasparov og Deep Blue skak AI?
Maskinindlæring er en anden meget vigtig anvendelse af kunstig intelligens. Kort sagt henviser det til ethvert system, der har evnen til at lære og forbedre fra databasen med deres egen erfaring. Dette fungerer gennem anerkendelse af mønstre. For at systemet kan gøre det, skal det kunne trænes. Systemets algoritme modtager et input af store datamængder, og på et tidspunkt bliver det i stand til at identificere mønstre ud fra disse data. Det endelige mål med denne proces er at sætte disse computersystemer i stand til at lære uafhængigt uden behov for menneskelig indgriben eller hjælp.
En anden ting, der er meget vigtigt at nævne sammen med maskinindlæring, er dyb læring. Et af de vigtigste redskaber i processen med dyb læring er de såkaldte kunstige neurale netværk. De er avancerede algoritmer, der ligner strukturen og funktionen af den menneskelige hjerne. De er dog statiske og symbolske, i modsætning til biologisk hjerne, som er plastisk og mere analogbaseret. Kort sagt er denne dyb læring en meget specialiseret måde at lære maskin på, primært baseret på kunstige neurale netværk. Målet med dyb læring er at nøje replikere menneskelige læringsprocesser. Deep learning-teknologi er meget nyttig, og den spiller en vigtig rolle i forskellige enheder, der styres af stemmen - tablets, tv'er, smartphones, køleskabe osv. Kunstige neurale netværk bruges også som et slags filtreringssystem, der sigter mod at forudsige emnerne at brugeren ville købe i fremtiden. Deep learning-teknologi er også meget udbredt inden for det medicinske område. Det er meget vigtigt for kræftforskere, fordi det hjælper med automatisk at opdage kræftceller.
Nu vender vi tilbage til talegenkendelse. Denne teknologi, som vi allerede nævnte, har til formål at identificere forskellige ord og sætninger på det talte sprog. Bagefter konverterer det dem til et format, som maskinen er i stand til at læse. Grundlæggende programmer identificerer kun et lille antal nøglefraser, men noget mere avanceret software til talegenkendelse er i stand til at dechifrere alle former for naturlig tale. Talegenkendelsesteknologi er praktisk i de fleste tilfælde, men det støder nogle gange på problemer, når kvaliteten af optagelsen ikke er god nok, eller når der er baggrundsstøj, der gør det vanskeligt at forstå højttaleren korrekt. Det kan også stadig støde på nogle problemer, når højttaleren har en rigtig stærk accent eller en dialekt. Talegenkendelse udvikler sig konstant, men den er stadig ikke helt perfekt. Ikke alt handler om ord, maskiner er stadig ikke i stand til mange ting, som mennesker kan gøre, for eksempel er de ikke i stand til at dechiffrere kropssprog eller tonen i en persons stemme. Da flere data imidlertid bliver dechifreret af disse avancerede algoritmer, synes nogle af disse udfordringer at falde i vanskeligheder. Hvem ved, hvad fremtiden vil bringe? Det er svært at forudsige, hvor talegenkendelsen ender. For eksempel har Google allerede stor succes med at implementere software til talegenkendelse i Google Translate-motorer, og maskinen lærer konstant og udvikler sig. Måske en dag vil de erstatte menneskelige oversættere fuldstændigt. Eller måske ikke, hverdagssprogssituationer er for komplekse til enhver form for maskine, der ikke er i stand til at læse dybden af menneskets sjæl.
Hvornår skal man bruge talegenkendelse?
I dag har næsten alle en smartphone eller en tablet. Talegenkendelse er et almindeligt træk i disse enheder. De bruges til at konvertere en persons tale til handling. Hvis du vil ringe til din bedstemor, er det nok, at du kommanderer "ring bedstemor", og din smartphone ringer allerede op til nummeret, uden at du behøver at skrive gennem dine kontaktlister. Dette er talegenkendelse. Et andet godt eksempel på det er Alexa eller Siri. De har også denne funktion tilsluttet i deres system. Google giver dig også mulighed for at søge efter noget med stemmen uden at skrive noget.
Måske er du nu nysgerrig efter, hvordan alt dette fungerer. For at det skal fungere, skal sensorer som mikrofoner indbygges i softwaren, så lydbølgerne fra de talte ord genkendes, analyseres og konverteres til et digitalt format. Den digitale information skal derefter sammenlignes med anden information, der er gemt i en slags ord- og udtryksregister. Når der er et match, kan softwaren genkende kommandoen og handle i overensstemmelse hermed.
En ting mere, der skal nævnes på dette tidspunkt, er den såkaldte WER (ordfejlrate). Dette er en formel, hvor du deler fejlnummeret med det samlede antal ord. Så for at sige det i enkle vendinger har det meget at gøre med nøjagtighed. Målet er naturligvis at have en lav WER, fordi det betyder, at transskriptionen af det talte ord er mere præcis.
Talegenkendelse er nu efterspurgt lige så meget som nogensinde. Hvis du også skal konvertere det talte ord fra lad os sige en optaget lydfil til tekst, kan du slå til Gglot. Vi er en transskriptionstjenesteudbyder, som tilbyder nøjagtige transskriptioner til en rimelig pris. Så tøv ikke med at kontakte os via vores brugervenlige hjemmeside.