Rollen av artificiell intelligens och maskininlärning i taligenkänning

Rollen för artificiell intelligens och maskininlärning i taligenkänning

Under en lång tid ville folk kunna prata med maskiner. Ända sedan de började bygga datorer har forskare och ingenjörer försökt att införliva taligenkänning i processen. År 1962 introducerade IBM Shoebox, en taligenkänningsmaskin som kunde göra enkla matteberäkningar. Denna innovativa enhet kände igen och svarade på 16 talade ord, inklusive de tio siffrorna från "0" till "9." När ett tal och kommandor som "plus", "minus" och "total" talades, instruerade Shoebox en tilläggsmaskin att beräkna och skriva ut svar på enkla aritmetiska problem. Shoebox manövrerades genom att prata i en mikrofon som omvandlade röstljud till elektriska impulser. En mätkrets klassificerade dessa impulser efter olika ljudtyper och aktiverade den anslutna tilläggsmaskinen genom ett reläsystem.

Med tiden utvecklades denna teknik och idag interagerar många av oss rutinmässigt med våra datorer via röst. De mest populära röstassistenterna idag är Alexa av Amazon, Siri av Apple, Google Assistant och Cortana av Microsoft. Dessa assistenter kan utföra uppgifter eller tjänster för en individ baserat på kommandon eller frågor. De kan tolka mänskligt tal och svara via syntetiserade röster. Användare kan ställa frågor till sina assistenter, styra hemautomationsenheter och medieappspelning via röst och hantera andra grundläggande uppgifter som e-post, att göra-listor och kalendrar med verbala kommandon. Ju mer vi använder dessa röststyrda enheter desto mer blir vi beroende av artificiell intelligens (AI) och maskininlärning.

Artificiell intelligens (AI)

1

När du säger artificiell intelligens (AI) kanske många tror att du pratar om science fiction, även om AI är mycket inbäddat i vår vardag. Det har faktiskt varit i årtionden. Men sanningen är att det faktiskt var science fiction som i början av 20-talet förtrogen allmänheten med artificiellt intelligent människoliknande robotar. På 50-talet kom begreppen AI mer och mer i fokus för forskare och filosofer. På den tiden föreslog den unga brittiska matematikern Alan Turing att det inte finns en anledning till att maskiner inte (precis som människor) kan lösa problem och fatta beslut baserat på tillgänglig information. Men på den tiden hade datorer inte möjligheten att memorera vilket är nyckeln för intelligens. Allt de gjorde var att utföra kommandon. Men ändå var det Alan Turing som etablerade det grundläggande målet och visionen om artificiell intelligens.

John McCarthy är allmänt erkänd som fader till AI och som myntade termen artificiell intelligens . För honom var AI: ”vetenskap och teknik för att skapa intelligenta maskiner”. Denna definition presenterades vid en konferens vid Dartmouth College 1956 och den indikerade början på AI-forskning. Därefter blomstrade AI.

I den moderna världen är artificiell intelligens allestädes närvarande. Det har blivit mer populärt tack vare ökade datamängder, avancerade algoritmer och förbättringar av datorkraft och lagring. Mestadels AI-applikation är kopplad till intellektuella uppgifter. Vi använder AI för översättning, objekt, ansikts- och taligenkänning, ämnesdetektering, medicinsk bildanalys, bearbetning av naturligt språk, filtrering av sociala nätverk, schackspel etc.

Maskininlärning

Maskininlärning är en tillämpning av artificiell intelligens och det hänvisar till system som har förmågan att förbättra från sin egen erfarenhet. Det viktigaste här är att systemet behöver veta hur man känner igen mönster. För att kunna göra det måste systemet tränas: algoritmen matar stora mängder data så att det någon gång kan identifiera mönster. Målet är att låta datorerna lära sig automatiskt utan mänsklig inblandning eller hjälp.

När man talar om maskininlärning är det viktigt att nämna djupt lärande. Låt oss börja med att säga att ett av de viktigaste verktygen som används vid djupinlärning är artificiella neurala nätverk. Det är algoritmer som är inspirerade av hjärnans struktur och funktion, även om de tenderar att vara statiska och symboliska, och inte plastiska och analoga som den biologiska hjärnan. Så djupinlärning är en specialiserad form av maskininlärning baserat på artificiellt neuralt nätverk vars mål är att replikera hur människor lär sig och detta fungerar som ett bra verktyg för att hitta mönster som är alldeles för många för en programmerare att lära ut maskinen. Under de senaste åren har det pratats mycket om förarlösa bilar och hur de kan förändra våra liv. Djupinlärningstekniken är nyckeln här, eftersom den minskar olyckor genom att göra det möjligt för bilen att skilja en fotgängare från en brandpost eller känna igen ett rött ljus. Deep learning-teknik spelar också huvudrollen i röststyrning i enheter som surfplattor, telefoner, kylskåp, TV-apparater etc. E-handelsföretag använder ofta artificiella neurala nätverk som ett filtreringssystem som försöker förutsäga och visa de objekt som en användare vill köpa. Deep learning-teknik används också inom medicinskt område. Det hjälper cancerforskare att automatiskt upptäcka cancerceller och representerar därmed en enorm framsteg inom cancerbehandling.

Taligenkänning

Taligenkänningsteknologi tjänar till att identifiera ord och fraser från det talade språket och konvertera dem till ett läsbart format för maskinen. Medan vissa program bara kan identifiera ett begränsat antal fraser, kan vissa mer sofistikerade program för taligenkänning dechiffrera naturligt tal.

Finns det hinder att övervinna?

Även om taligenkänningstekniken är bekväm går det inte alltid smidigt och det har fortfarande några problem att arbeta igenom, eftersom den kontinuerligt utvecklas. Problem som kan uppstå kan bland annat inkludera följande: inspelningens kvalitet kan vara otillräcklig, det kan vara ljud i bakgrunden som gör det svårt att förstå högtalaren, även högtalaren kan ha en riktigt stark accent eller dialekt (gjorde du någonsin hört Geordie-dialekten?), etc.

Taligenkänning har utvecklats ganska mycket, men det är fortfarande långt ifrån perfekt. Inte allt handlar bara om ord, maskinen kan fortfarande inte göra många saker som människor kan: de kan inte läsa kroppsspråk eller känna igen den sarkastiska tonen i någons röst. Människor uttalar ofta inte varje ord på rätt sätt och de tenderar att förkorta några ord. Till exempel, när man talar snabbt och informellt uttalar engelsktalande som modersmål ofta att "gå till" som "kommer". Allt ovanstående orsakar hinder för maskiner som de försöker övervinna, men det finns fortfarande en lång väg framför dem. Det är viktigt att markera att allt fler data matas till dessa specifika algoritmer. utmaningarna tycks minska. Framtiden för automatiskt taligenkänning verkar vara ljus.

Röstdrivna användargränssnitt blir alltmer tillgängliga och populära i hushållen. Det kan till och med bli nästa plattform inom teknik.

Gglot erbjuder automatisk taligenkänning i form av automatiska transkriptionstjänster – vi konverterar tal till text. Vår tjänst är enkel att använda, det kommer inte att kosta dig mycket och det kommer att göras snabbt!