Förstå taligenkänning: AI:s roll

Taligenkänning

Vad du behöver veta om taligenkänning

När vi pratar om taligenkänning menar vi vanligtvis en programvara som har förmågan att känna igen det talade ordet och skriva ner det i ett program så i slutändan har du allt som har talats i skriftligt format. Det kallas också ofta ”tal-till-text”. I början hade programvaran mycket begränsade möjligheter, så att du bara kunde konvertera ett begränsat antal fraser. Med tiden har tekniken bakom programvara för taligenkänning utvecklats mycket och den är nu mycket mer sofistikerad så att den kan känna igen olika språk och till och med olika accenter. Men naturligtvis finns det fortfarande arbete som måste göras inom detta område.

Det är också viktigt att lägga märke till att taligenkänning inte är densamma som röstigenkänning, även om människor ibland använder de två termerna för samma sak. Röstigenkänning används för identifiering av personen som talar och inte för att notera vad som sagts.

En kort historia av taligenkänning och relaterad teknik

I den här artikeln kommer vi kort att förklara historien och tekniken bakom uppkomsten av taligenkänning.

Ända sedan början av den digitala tidsåldern hade människor en önskan att på något sätt kunna kommunicera med maskiner. Efter att den första typen av digital dator uppfanns har många forskare och ingenjörer på olika sätt försökt på något sätt implementera taligenkänning i denna process. Ett avgörande år för denna process var 1962, då IBM avslöjade Shoebox, en grundläggande taligenkänningsmaskin som kunde göra enkla matteberäkningar. Om användaren av denna protodator talade i en mikrofon kunde maskinen känna igen upp till sex kontrollord som ”plus” eller ”minus”. Med tiden utvecklades tekniken bakom detta och idag är det mycket vanligt att interagera med datorer med röst. Det finns många kända taligenkänningsmotorer som Siri eller Alexa. Det är viktigt att notera att dessa röststyrda enheter är beroende av artificiell intelligens (AI) och maskininlärning.

När artificiell intelligens (AI) nämns kan det låta som något från en science fiction-film, men sanningen är att AI i dagens tid spelar AI en stor roll i vår värld. Faktum är att AI redan är mycket närvarande i vår vardag, eftersom många program och appar redan använder den. Men det var science fiction i början av 1900-talet, när termen uppstod. I slutet av 1950 blev begreppen AI mer framträdande och var fokus för många forskare och filosofer. På den tiden kom en mycket ambitiös brittisk matematiker som heter Alan Turing med ett förslag om att maskiner kan lösa problem och fatta beslut själva baserat på inmatning av tillgänglig information. Problemet var att datorer ännu inte hade möjlighet att memorera dessa data, vilket är ett avgörande steg för utveckling av artificiell intelligens. Allt de kunde göra då var att utföra enkla kommandon.

Ett annat viktigt namn i utvecklingen av AI är John McCarthy, som först myntade själva termen ”artificiell intelligens”. McCarthy uppgav att AI är: ”vetenskapen och tekniken för att skapa intelligenta maskiner”. Denna definition kom fram vid en seminalkonferens vid Dartmouth College 1956. Därefter började AI utvecklas i en hektisk takt.

Idag finns artificiell intelligens i sin olika form överallt. Det har vuxit till massadoption, främst på grund av en ökning av den totala datamängden som utbyts över hela världen varje dag. Det används i avancerade algoritmer, och det gav upphov till förbättringar i lagring och datorkraft. AI används för många ändamål, till exempel översättning, transkription, tal, ansiktsigenkänning, analys av medicinska bilder, bearbetning av naturliga språk, olika sociala nätverksfilter och så vidare. Kommer du ihåg den schackmatchen mellan stormästaren Gari Kasparov och Deep Blue schack AI?

Maskininlärning är en annan mycket viktig tillämpning av artificiell intelligens. Kort sagt hänvisar det till alla system som har förmågan att lära sig och förbättra från sin egen erfarenhetsdatabas. Detta fungerar genom igenkänning av mönster. För att systemet ska kunna göra det måste det kunna tränas. Systemets algoritm tar emot en inmatning av stora mängder data och vid ett tillfälle blir det möjligt att identifiera mönster från dessa data. Slutmålet med denna process är att göra det möjligt för dessa datorsystem att lära sig självständigt utan behov av mänsklig intervention eller hjälp.

En annan sak som är mycket viktigt att nämna tillsammans med maskininlärning är djupt lärande. Ett av de viktigaste verktygen i djupinlärningsprocessen är de så kallade artificiella neurala nätverken. De är avancerade algoritmer, som liknar den mänskliga hjärnans struktur och funktion. De är dock statiska och symboliska, till skillnad från biologisk hjärna som är plastisk och mer analogbaserad. Kort sagt, detta djupinlärning är ett mycket specialiserat sätt att maskininlärning, främst baserat på artificiella neurala nätverk. Målet med djupinlärning är att noggrant replikera mänskliga inlärningsprocesser. Deep learning-teknik är mycket användbar och den spelar en viktig roll i olika enheter som styrs av rösten - surfplattor, TV-apparater, smartphones, kylskåp etc. Konstgjorda neuronätverk används också som ett slags filtreringssystem som syftar till att förutsäga artiklarna som användaren skulle köpa i framtiden. Deep learning-teknik används också mycket inom det medicinska området. Det är mycket viktigt för cancerforskare, eftersom det hjälper till att automatiskt upptäcka cancerceller.

Nu kommer vi tillbaka till taligenkänning. Denna teknik, som vi redan nämnde, syftar till att identifiera olika ord och fraser i det talade språket. Därefter konverterar den dem till ett format som maskinen kan läsa. Grundläggande program identifierar endast ett litet antal nyckelfraser, men vissa mer avancerade program för taligenkänning kan dechiffrera alla typer av naturligt tal. Taligenkänningsteknik är praktisk i de flesta fall, men det stöter ibland på problem när inspelningens kvalitet inte är tillräckligt bra eller när det finns bakgrundsljud som gör det svårt att förstå högtalaren ordentligt. Det kan också fortfarande stöta på några problem när högtalaren har en riktigt stark accent eller en dialekt. Taligenkänning utvecklas ständigt, men det är fortfarande inte helt perfekt. Inte allt handlar om ord, maskiner är fortfarande inte kapabla till många saker som människor kan göra, till exempel kan de inte dechiffrera kroppsspråk eller tonen i någons röst. Eftersom mer data dechiffreras av dessa avancerade algoritmer verkar dock några av dessa utmaningar minska i svårigheter. Vem vet vad framtiden kommer att medföra? Det är svårt att förutsäga var taligenkänningen hamnar. Till exempel har Google redan mycket framgång med att implementera programvara för taligenkänning i Google Translate-motorer, och maskinen lär sig och utvecklar ständigt. Kanske en dag kommer de att ersätta mänskliga översättare helt. Eller kanske inte, vardagliga talsituationer är för komplexa för alla typer av maskiner som inte kan läsa djupet av människans själ.

När ska man använda taligenkänning?

Numera har nästan alla en smartphone eller en surfplatta. Taligenkänning är en vanlig funktion i dessa enheter. De används för att omvandla en persons tal till handling. Om du vill ringa din mormor räcker det att du kommenderar "ring farmor" och din smartphone ringer redan numret utan att du behöver skriva in dina kontaktlistor. Detta är taligenkänning. Ett annat bra exempel på det är Alexa eller Siri. De har också den här funktionen trådbunden i sitt system. Google ger dig också möjlighet att söka efter något med rösten utan att skriva in något.

Du kanske nu är nyfiken på hur allt detta fungerar. För att det ska fungera måste sensorer som mikrofoner byggas in i programvaran så att ljudvågorna från de talade orden känns igen, analyseras och konverteras till ett digitalt format. Den digitala informationen måste sedan jämföras med annan information som lagras i något slags ord och uttrycksförvar. När det finns en matchning kan programvaran känna igen kommandot och agera därefter.

En sak till som behöver nämnas vid denna tidpunkt är den så kallade WER (ordfelfrekvens). Detta är en formel där du delar felnumret med antalet ord. Så för att uttrycka det i enkla termer har det mycket att göra med noggrannhet. Målet är naturligtvis att ha en låg WER, eftersom det betyder att transkriptionen av det talade ordet är mer exakt.

Taligenkänning efterfrågas nu lika mycket som någonsin. Om du också behöver konvertera det talade ordet från låt oss säga en inspelad ljudfil till text kan du vända dig till Gglot. Vi är en leverantör av transkriptionstjänster som erbjuder korrekta transkriptioner till ett rimligt pris. Så tveka inte att ta kontakt via vår användarvänliga hemsida.

Vad är taligenkänning exakt?

Skapa

Jämföra

Rättslig