Wat is spraakherkenning precies?
Spraakherkenning
Wat u moet weten over spraakherkenning
Als we het hebben over spraakherkenning, bedoelen we meestal een software die het vermogen heeft om het gesproken woord te herkennen en het in een programma op te schrijven, zodat je uiteindelijk alles hebt dat in een geschreven vorm is gesproken. Het wordt ook vaak "spraak-naar-tekst" genoemd. In het begin had die software zeer beperkte mogelijkheden, waardoor je maar een beperkt aantal zinnen kon converteren. Na verloop van tijd heeft de technologie achter spraakherkenningssoftware veel ontwikkeld en is deze nu veel geavanceerder, zodat het verschillende talen en zelfs verschillende accenten kan herkennen. Maar er is natuurlijk nog werk aan de winkel op dit gebied.
Het is ook belangrijk op te merken dat spraakherkenning niet hetzelfde is als spraakherkenning, ook al gebruiken mensen de twee termen soms voor hetzelfde. Spraakherkenning wordt gebruikt om de persoon die aan het woord is te identificeren en niet om op te merken wat er werd gezegd.
Een korte geschiedenis van spraakherkenning en aanverwante technologie
In dit artikel leggen we kort de geschiedenis en technologie achter de opkomst van spraakherkenning uit.
Sinds het begin van het digitale tijdperk hadden mensen de neiging om op de een of andere manier met machines te kunnen communiceren. Nadat de eerste soort digitale computer was uitgevonden, hebben talloze wetenschappers en ingenieurs op verschillende manieren geprobeerd om op de een of andere manier spraakherkenning in dit proces te implementeren. Een cruciaal jaar van dit proces was 1962, toen IBM Shoebox onthulde, een eenvoudige spraakherkenningsmachine die in staat was om eenvoudige wiskundige berekeningen uit te voeren. Als de gebruiker van deze protocomputer in een microfoon sprak, kon deze machine maximaal zes controlewoorden herkennen, zoals "plus" of "minus". In de loop van de tijd ontwikkelde de technologie hierachter zich en tegenwoordig is het een veel voorkomende functie om via spraak met computers te communiceren. Er zijn veel beroemde spraakherkenningsengines zoals Siri of Alexa. Het is belangrijk op te merken dat deze spraakgestuurde apparaten afhankelijk zijn van kunstmatige intelligentie (AI) en machine learning.
Wanneer kunstmatige intelligentie (AI) wordt genoemd, klinkt het misschien als iets uit een sciencefictionfilm, maar de waarheid is dat AI tegenwoordig een grote rol speelt in onze wereld. In feite is AI al zeer aanwezig in ons dagelijks leven, aangezien veel programma's en apps er al gebruik van maken. Maar het was sciencefiction aan het begin van de 20e eeuw, toen de term opkwam. Eind 1950 kwamen de concepten van AI meer op de voorgrond en stonden veel wetenschappers en filosofen in de belangstelling. In die tijd kwam een zeer ambitieuze Britse wiskundige genaamd Alan Turing met een voorstel dat machines problemen kunnen oplossen en zelf beslissingen kunnen nemen op basis van de input van beschikbare informatie. Het probleem was dat computers nog niet de mogelijkheid hadden om die gegevens te onthouden, wat een cruciale stap is voor de ontwikkeling van kunstmatige intelligentie. Het enige wat ze toen konden doen, was het uitvoeren van eenvoudige opdrachten.
Een andere belangrijke naam bij de ontwikkeling van AI is John McCarthy, die voor het eerst de term "kunstmatige intelligentie" bedacht. McCarthy stelde dat AI is: "de wetenschap en techniek van het maken van intelligente machines". Deze definitie kwam aan het licht op een baanbrekende conferentie op Dartmouth College in 1956. Vanaf dat moment begon AI zich in een razend tempo te ontwikkelen.
Tegenwoordig is kunstmatige intelligentie in zijn verschillende vormen overal aanwezig. Het is uitgegroeid tot massale acceptatie, voornamelijk als gevolg van de toename van het totale volume aan gegevens dat elke dag wereldwijd wordt uitgewisseld. Het wordt gebruikt in geavanceerde algoritmen en heeft geleid tot verbeteringen in opslag- en rekenkracht. AI wordt voor veel doeleinden gebruikt, bijvoorbeeld voor vertaling, transcriptie, spraak-, gezichts- en objectherkenning, analyse van medische beelden, verwerking van natuurlijke talen, verschillende sociale netwerkfilters enzovoort. Herinner je je die schaakwedstrijd tussen grootmeester Gari Kasparov en Deep Blue chess AI?
Machine learning is een andere zeer belangrijke toepassing van kunstmatige intelligentie. Kort gezegd verwijst het naar alle systemen die kunnen leren en verbeteren van de database met hun eigen ervaringen. Dit werkt door herkenning van patronen. Om dat te kunnen doen, moet het systeem kunnen worden getraind. Het algoritme van het systeem ontvangt een invoer van grote hoeveelheden gegevens, en op een gegeven moment wordt het in staat om patronen uit die gegevens te identificeren. Het uiteindelijke doel van dit proces is om deze computersystemen in staat te stellen zelfstandig te leren, zonder dat menselijke tussenkomst of hulp nodig is.
Een ander ding dat heel belangrijk is om te vermelden naast machine learning, is deep learning. Een van de belangrijkste tools in het proces van deep learning zijn de zogenaamde kunstmatige neurale netwerken. Het zijn geavanceerde algoritmen, vergelijkbaar met de structuur en functie van het menselijk brein. Ze zijn echter statisch en symbolisch, in tegenstelling tot biologische hersenen die van plastic en meer analoog zijn. Kortom, dit deep learning is een zeer gespecialiseerde manier van machine learning, voornamelijk gebaseerd op kunstmatige neurale netwerken. Het doel van deep learning is om de menselijke leerprocessen nauwkeurig te repliceren. Deep learning-technologie is erg handig en speelt een belangrijke rol in verschillende apparaten die worden bestuurd door de stem - tablets, tv's, smartphones, koelkasten enz. Kunstmatige neurale netwerken worden ook gebruikt als een soort filtersysteem dat tot doel heeft de items te voorspellen die de gebruiker in de toekomst zou kopen. Deep learning-technologie wordt ook zeer veel gebruikt in de medische wereld. Het is erg belangrijk voor kankeronderzoekers, omdat het helpt om automatisch kankercellen op te sporen.
Nu komen we terug op spraakherkenning. Deze technologie, zoals we al zeiden, heeft tot doel verschillende woorden en uitdrukkingen van de gesproken taal te identificeren. Daarna converteert het ze naar een formaat dat de machine kan lezen. Basisprogramma's identificeren slechts een klein aantal sleutelzinnen, maar sommige meer geavanceerde spraakherkenningssoftware kan alle soorten natuurlijke spraak ontcijferen. Spraakherkenningstechnologie is in de meeste gevallen handig, maar stuit soms op problemen wanneer de kwaliteit van de opname niet goed genoeg is of wanneer er achtergrondgeluiden zijn die het moeilijk maken om de spreker goed te verstaan. Het kan ook nog steeds problemen ondervinden als de spreker een heel sterk accent of een dialect heeft. Spraakherkenning ontwikkelt zich voortdurend, maar is nog niet helemaal perfect. Niet alles draait om woorden, machines zijn nog steeds niet in staat tot veel dingen die mensen kunnen, ze zijn bijvoorbeeld niet in staat om lichaamstaal of de toon van iemands stem te ontcijferen. Naarmate er echter meer gegevens worden ontcijferd door deze geavanceerde algoritmen, lijken sommige van deze uitdagingen steeds moeilijker te worden. Wie weet wat de toekomst brengt? Het is moeilijk te voorspellen waar de spraakherkenning terecht zal komen. Google boekt bijvoorbeeld al veel succes met het implementeren van spraakherkenningssoftware in Google Translate-engines en de machine leert en ontwikkelt zich voortdurend. Misschien zullen ze ooit menselijke vertalers volledig vervangen. Of misschien niet, alledaagse spraaksituaties zijn te complex voor elk soort machine die de diepte van de menselijke ziel niet kan lezen.
Wanneer spraakherkenning gebruiken?
Tegenwoordig heeft bijna iedereen een smartphone of tablet. Spraakherkenning is een veel voorkomende functie op die apparaten. Ze worden gebruikt om de spraak van een persoon om te zetten in actie. Als u uw grootmoeder wilt bellen, volstaat het dat u het commando "bel oma" geeft en uw smartphone het nummer al kiest zonder dat u door uw contactenlijsten hoeft te typen. Dit is spraakherkenning. Een ander goed voorbeeld hiervan is Alexa of Siri. Ze hebben deze functie ook vast in hun systeem. Google geeft je ook de mogelijkheid om met je stem naar iets te zoeken, zonder iets in te typen.
Misschien ben je nu benieuwd hoe dit allemaal werkt. Om het te laten werken, moeten sensoren zoals microfoons in de software worden ingebouwd, zodat de geluidsgolven van de gesproken woorden worden herkend, geanalyseerd en geconverteerd naar een digitaal formaat. De digitale informatie moet dan worden vergeleken met andere informatie die is opgeslagen in een soort opslagplaats voor woorden en uitdrukkingen. Als er een match is, kan de software de opdracht herkennen en ernaar handelen.
Nog een ding dat op dit punt moet worden vermeld, is de zogenaamde WER (word error rate). Dit is een formule waarin je het foutnummer deelt door het totaal van woorden. Dus, om het simpel te zeggen, het heeft veel te maken met nauwkeurigheid. Het doel is natuurlijk om een lage WER te hebben, omdat dit betekent dat de transcriptie van het gesproken woord nauwkeuriger is.
Er is nu net zo veel vraag naar spraakherkenning als altijd. Als u ook het gesproken woord van bijvoorbeeld een opgenomen audiobestand naar tekst wilt converteren, kunt u terecht bij Gglot. Wij zijn een transcriptiedienstverlener die nauwkeurige transcripties aanbiedt voor een eerlijke prijs. Aarzel dus niet om contact op te nemen via onze gebruiksvriendelijke website.