Hva er egentlig talegjenkjenning?
Talegjenkjenning
Hva du trenger å vite om talegjenkjenning
Når vi snakker om talegjenkjenning, mener vi vanligvis en programvare som har evnen til å gjenkjenne det talte ordet og til å skrive det ned i et program slik at du til slutt har alt som har blitt talt i et skriftlig format. Det blir også ofte referert til som "tale-til-tekst". I begynnelsen hadde denne programvaren svært begrensede muligheter, slik at du kun kunne konvertere et begrenset antall fraser. Med tiden har teknologien bak programvare for talegjenkjenning utviklet seg mye, og den er nå mye mer sofistikert, slik at den kan gjenkjenne forskjellige språk og til og med forskjellige aksenter. Men selvfølgelig er det fortsatt arbeid som må gjøres på dette feltet.
Det er også viktig å merke seg at talegjenkjenning ikke er det samme som stemmegjenkjenning, selv om noen ganger bruker de to begrepene for det samme. Stemmegjenkjenning brukes til å identifisere personen som snakker og ikke for å legge merke til hva som ble sagt.
En kort historie om talegjenkjenning og relatert teknologi
I denne artikkelen vil vi kort forklare historien og teknologien bak fremveksten av talegjenkjenning.
Helt siden begynnelsen av den digitale tidsalderen har folk hatt en trang til på en eller annen måte å kunne kommunisere med maskiner. Etter at den første typen digital datamaskin ble oppfunnet, har mange forskere og ingeniører prøvd på forskjellige måter å implementere talegjenkjenning i denne prosessen. Et avgjørende år for denne prosessen var 1962, da IBM avslørte Shoebox, en grunnleggende talegjenkjenningsmaskin som var i stand til å gjøre enkle matematiske beregninger. Hvis brukeren av denne proto-datamaskinen snakket inn i en mikrofon, var denne maskinen i stand til å gjenkjenne opptil seks kontrollord som "pluss" eller "minus". Over tid har teknologien bak utviklet seg og i dag er det svært vanlig å kommunisere med datamaskiner med stemmen. Det er mange kjente talegjenkjenningsmotorer som Siri eller Alexa. Det er viktig å merke seg at disse stemmedrevne enhetene er avhengige av kunstig intelligens (AI) og maskinlæring.
Når kunstig intelligens (AI) nevnes, kan det høres ut som noe fra en science fiction-film, men sannheten er at i dagens tid spiller AI en stor rolle i vår verden. Faktisk er AI allerede veldig tilstede i hverdagen vår, siden mange programmer og apper allerede bruker det. Men det var science fiction på begynnelsen av 1900-tallet, da begrepet dukket opp. På slutten av 1950 ble begrepene AI mer fremtredende og var i fokus for mange forskere og filosofer. På den tiden kom en veldig ambisiøs britisk matematiker ved navn Alan Turing med et forslag om at maskiner kan løse problemer og ta avgjørelser selv, basert på inndata fra tilgjengelig informasjon. Problemet var at datamaskiner ennå ikke hadde mulighet til å huske disse dataene, noe som er et avgjørende skritt for utvikling av kunstig intelligens. Alt de kunne gjøre den gang var å utføre enkle kommandoer.
Et annet viktig navn i utviklingen av AI er John McCarthy, som først laget selve begrepet "kunstig intelligens". McCarthy uttalte at AI er: "vitenskapen og ingeniørkunsten for å lage intelligente maskiner". Denne definisjonen kom frem på en banebrytende konferanse ved Dartmouth College i 1956. Fra da av begynte AI å utvikle seg i et hektisk tempo.
I dag er kunstig intelligens i sin ulike form tilstede overalt. Det har vokst til masseadopsjon, hovedsakelig på grunn av økningen i det totale volumet av data som utveksles over hele verden hver dag. Den brukes i avanserte algoritmer, og den ga opphav til forbedringer i lagring og datakraft. AI brukes til mange formål, for eksempel oversettelse, transkripsjon, tale, ansikts- og objektgjenkjenning, analyse av medisinske bilder, behandling av naturlige språk, ulike sosiale nettverksfiltre og så videre. Husker du den sjakkkampen mellom stormester Gari Kasparov og Deep Blue sjakk AI?
Maskinlæring er en annen svært viktig anvendelse av kunstig intelligens. Kort sagt, det refererer til alle systemer som har evnen til å lære og forbedre fra databasen av sin egen erfaring. Dette fungerer gjennom gjenkjennelse av mønstre. For at systemet skal gjøre det, må det kunne trenes. Algoritmen til systemet mottar en inngang av store datamengder, og på et tidspunkt blir den i stand til å identifisere mønstre fra disse dataene. Sluttmålet med denne prosessen er å gjøre det mulig for disse datasystemene å lære uavhengig, uten behov for menneskelig inngripen eller assistanse.
En annen ting som er veldig viktig å nevne ved siden av maskinlæring er dyp læring. Et av de viktigste verktøyene i prosessen med dyp læring er de såkalte kunstige nevrale nettverkene. De er avanserte algoritmer, lik strukturen og funksjonen til den menneskelige hjernen. Imidlertid er de statiske og symbolske, i motsetning til biologisk hjerne som er plastisk og mer analogbasert. Kort sagt, denne dype læringen er en veldig spesialisert måte for maskinlæring, primært basert på kunstige nevrale nettverk. Målet med dyp læring er å tett gjenskape menneskelige læringsprosesser. Dyplæringsteknologi er veldig nyttig, og den spiller en viktig rolle i ulike enheter som styres av stemmen – nettbrett, TV-er, smarttelefoner, kjøleskap osv. Kunstige nevrale nettverk brukes også som et slags filtreringssystem som har som mål å forutsi gjenstandene som brukeren vil kjøpe i fremtiden. Dyplæringsteknologi er også veldig mye brukt i det medisinske feltet. Det er veldig viktig for kreftforskere, fordi det hjelper til automatisk å oppdage kreftceller.
Nå skal vi komme tilbake til talegjenkjenning. Denne teknologien, som vi allerede har nevnt, har som mål å identifisere ulike ord og uttrykk i talespråket. Etterpå konverterer den dem til et format som maskinen kan lese. Grunnleggende programmer identifiserer bare et lite antall nøkkelsetninger, men noe mer avansert programvare for talegjenkjenning er i stand til å tyde alle typer naturlig tale. Talegjenkjenningsteknologi er praktisk i de fleste tilfeller, men det oppstår noen ganger problemer når kvaliteten på opptaket ikke er god nok eller når det er bakgrunnsstøy som gjør det vanskelig å forstå høyttaleren ordentlig. Det kan også fortsatt støte på noen problemer når høyttaleren har en veldig sterk aksent eller en dialekt. Talegjenkjenning er i stadig utvikling, men den er fortsatt ikke helt perfekt. Ikke alt handler om ord, maskiner er fortsatt ikke i stand til mange ting som mennesker kan gjøre, for eksempel er de ikke i stand til å tyde kroppsspråk eller tonen i noens stemme. Ettersom flere data blir dechiffrert av disse avanserte algoritmene, ser det imidlertid ut til at noen av disse utfordringene reduseres i vanskelighetsgrad. Hvem vet hva fremtiden vil bringe? Det er vanskelig å forutsi hvor talegjenkjenningen vil ende opp. For eksempel har Google allerede stor suksess med å implementere talegjenkjenningsprogramvare i Google Translate-motorer, og maskinen lærer og utvikler seg hele tiden. Kanskje vil de en dag erstatte menneskelige oversettere fullstendig. Eller kanskje ikke, dagligdagse talesituasjoner er for komplekse for noen form for maskin som ikke er i stand til å lese dybden av menneskets sjel.
Når skal man bruke talegjenkjenning?
I dag har nesten alle en smarttelefon eller et nettbrett. Talegjenkjenning er en vanlig funksjon i disse enhetene. De brukes til å konvertere en persons tale til handling. Hvis du vil ringe bestemoren din, er det nok at du kommanderer "ring bestemor" og smarttelefonen din ringer allerede nummeret uten at du trenger å skrive gjennom kontaktlistene dine. Dette er talegjenkjenning. Et annet godt eksempel på det, er Alexa eller Siri. De har også denne funksjonen fastkoblet i systemet sitt. Google gir deg også muligheten til å søke etter hva som helst med stemmen, uten å skrive inn noe.
Kanskje du nå er nysgjerrig på hvordan alt dette fungerer. Vel, for at det skal fungere, må sensorer som mikrofoner bygges inn i programvaren slik at lydbølgene til de talte ordene gjenkjennes, analyseres og konverteres til et digitalt format. Den digitale informasjonen må da sammenlignes med annen informasjon som er lagret i et slags ord- og uttrykkslager. Når det er en kamp, kan programvaren gjenkjenne kommandoen og handle deretter.
En ting til som må nevnes på dette punktet er den såkalte WER (ordfeilfrekvens). Dette er en formel der du deler feilnummeret med summen av ord. Så, for å si det enkelt, har det mye med nøyaktighet å gjøre. Målet er selvfølgelig å ha en lav WER, fordi dette betyr at transkripsjonen av det talte ordet er mer nøyaktig.
Talegjenkjenning er nå etterspurt like mye som alltid. Hvis du også trenger å konvertere det talte ordet fra la oss si en innspilt lydfil til tekst, kan du slå til Gglot. Vi er en leverandør av transkripsjonstjenester som tilbyr nøyaktige transkripsjoner til en rimelig pris. Så ikke nøl med å ta kontakt via vår brukervennlige nettside.