Rollen til kunstig intelligens og maskinlæring i talegjenkjenning

Rollen til kunstig intelligens og maskinlæring i talegjenkjenning

Lenge ønsket folk å kunne snakke med maskiner. Helt siden de begynte å bygge datamaskiner, har forskere og ingeniører forsøkt å inkludere talegjenkjenning i prosessen. I år 1962 introduserte IBM Shoebox, en talegjenkjenningsmaskin som kunne gjøre enkle matematiske beregninger. Denne innovative enheten gjenkjente og reagerte på 16 talte ord, inkludert de ti sifrene fra «0» til «9». Når et tall og kommandoord som "pluss", "minus" og "totalt" ble sagt, instruerte Shoebox en tilleggsmaskin til å beregne og skrive ut svar på enkle regneoppgaver. Shoebox ble betjent ved å snakke inn i en mikrofon, som konverterte stemmelyder til elektriske impulser. En målekrets klassifiserte disse impulsene i henhold til ulike typer lyder og aktiverte den tilkoblede tilleggsmaskinen gjennom et relésystem.

Med tiden utviklet denne teknologien seg, og i dag samhandler mange av oss rutinemessig med datamaskiner med stemmen. De mest populære stemmeassistentene i dag er Alexa fra Amazon, Siri av Apple, Google Assistant og Cortana fra Microsoft. Disse assistentene kan utføre oppgaver eller tjenester for en person basert på kommandoer eller spørsmål. De er i stand til å tolke menneskelig tale og svare via syntetiserte stemmer. Brukere kan stille spørsmål til assistentene sine, kontrollere hjemmeautomatiseringsenheter og medieavspilling via stemmen, og administrere andre grunnleggende oppgaver som e-post, gjøremålslister og kalendere med verbale kommandoer. Jo mer vi bruker disse stemmedrevne enhetene, jo mer blir vi avhengig av kunstig intelligens (AI) og maskinlæring.

Kunstig intelligens (AI)

1

Når du sier kunstig intelligens (AI), vil mange kanskje tro at du snakker om science fiction, selv om AI er veldig innebygd i hverdagen vår. Faktisk har det vært det i flere tiår. Men sannheten er at det faktisk var science fiction som på begynnelsen av det 20. århundre gjorde publikum kjent med kunstig intelligente menneskelignende roboter. På 50-tallet kom begrepene AI mer og mer i fokus for interessen til forskere og filosofer. På den tiden antydet den unge britiske matematikeren Alan Turing at det ikke var en grunn til at maskiner ikke (akkurat som mennesker) kunne løse problemer og ta avgjørelser basert på tilgjengelig informasjon. Men på den tiden hadde ikke datamaskiner muligheten til å huske, noe som er nøkkelen til intelligens. Alt de gjorde var å utføre kommandoer. Men likevel var det Alan Turing som etablerte det grunnleggende målet og visjonen for kunstig intelligens.

Allment anerkjent som faren til AI er John McCarthy som laget begrepet kunstig intelligens . For ham var AI: "vitenskapen og ingeniørkunsten ved å lage intelligente maskiner". Denne definisjonen ble presentert på en konferanse ved Dartmouth College i 1956, og den indikerte begynnelsen på AI-forskning. Fra da av blomstret AI.

I den moderne verden er kunstig intelligens allestedsnærværende. Det har blitt mer populært takket være økte datavolumer, avanserte algoritmer og forbedringer i datakraft og lagring. For det meste er AI-applikasjonen koblet til intellektuelle oppgaver. Vi bruker AI til oversettelse, gjenkjenning av objekter, ansikter og tale, emnegjenkjenning, medisinsk bildeanalyse, naturlig språkbehandling, filtrering av sosiale nettverk, sjakkspilling etc.

Maskinlæring

Maskinlæring er en applikasjon av kunstig intelligens og det refererer til systemer som har evnen til å forbedre seg fra egen erfaring. Det viktigste her er at systemet må vite hvordan det skal gjenkjenne mønstre. For å kunne gjøre det må systemet trenes: Algoritmen mater store mengder data slik at den på et tidspunkt kan identifisere mønstre. Målet er å la datamaskinene lære automatisk uten menneskelig innblanding eller hjelp.

Når man snakker om maskinlæring er det viktig å nevne dyp læring. La oss starte med å si at et av hovedverktøyene som brukes i dyp læring er kunstige nevrale nettverk. Dette er algoritmer som er inspirert av hjernens struktur og funksjon, selv om de har en tendens til å være statiske og symbolske, og ikke plastiske og analoge som den biologiske hjernen. Så dyp læring er en spesialisert form for maskinlæring basert på kunstig nevrale nettverk som har som mål å gjenskape måten mennesker lærer på, og dette fungerer som et flott verktøy for å finne mønstre som er altfor mange til at en programmerer kan lære maskinen. De siste par årene har det vært mye snakk om førerløse biler og hvordan de kan forandre livene våre. Deep learning-teknologi er nøkkelen her, fordi den reduserer ulykker ved å gjøre det mulig for bilen å skille en fotgjenger fra en brannhydrant eller gjenkjenne et rødt lys. Dyplæringsteknologi spiller også hovedrollen i stemmestyring i enheter som nettbrett, telefoner, kjøleskap, TV-er osv. E-handelsselskaper bruker ofte kunstige nevrale nettverk som et filtreringssystem som prøver å forutsi og vise elementene en bruker ønsker å kjøpe. Dyplæringsteknologi brukes også innen medisinsk felt. Det hjelper kreftforskere til automatisk å oppdage kreftceller og representerer dermed en enorm fremgang innen kreftbehandling.

Talegjenkjenning

Talegjenkjenningsteknologi tjener til å identifisere ord og uttrykk fra talespråket og konvertere dem til et lesbart format for maskinen. Mens noen programmer bare kan identifisere et begrenset antall fraser, kan noen mer sofistikerte talegjenkjenningsprogrammer tyde naturlig tale.

Er det hindringer å overvinne?

Selv om det er praktisk, går ikke talegjenkjenningsteknologi alltid problemfritt, og den har fortsatt noen problemer å jobbe gjennom, ettersom den utvikles kontinuerlig. Problemer som kan oppstå kan inkludere blant annet følgende: kvaliteten på opptaket kan være utilstrekkelig, det kan være lyder i bakgrunnen som gjør det vanskelig å forstå høyttaleren, også høyttaleren kan ha en veldig sterk aksent eller dialekt (visste du noen gang hørt Geordie-dialekten?), osv.

Talegjenkjenning har utviklet seg ganske mye, men den er fortsatt langt fra perfekt. Ikke alt handler bare om ord, maskinen kan fortsatt ikke gjøre mange ting som mennesker kan: de kan ikke lese kroppsspråk eller gjenkjenne den sarkastiske tonen i noens stemme. Folk uttaler ofte ikke hvert ord på riktig måte, og de har en tendens til å forkorte noen ord. For eksempel, når de snakker raskt og uformelt, uttaler engelsktalende som morsmål ofte «going to» som «gonna». Alt det ovennevnte forårsaker hindringer for maskiner som de prøver å overvinne, men det er fortsatt en lang vei foran dem. Det er viktig å fremheve at etter hvert som mer og mer data mates til de spesifikke algoritmene; utfordringene ser ut til å avta. Fremtiden for automatisert talegjenkjenning ser ut til å være lys.

Stemmedrevne brukergrensesnitt blir stadig mer tilgjengelige og populære i husholdninger. Det kan til og med bli DEN neste plattformen innen teknologi.

Gglot tilbyr automatisk talegjenkjenning i form av automatiserte transkripsjonstjenester – vi konverterer taler til tekst. Tjenesten vår er enkel å bruke, det vil ikke koste deg mye og det vil bli gjort raskt!