Wat is krekt spraakherkenning?
Spraakherkenning
Wat jo witte moatte oer spraakherkenning
As wy it oer spraakherkenning hawwe, bedoele wy normaal in software dy't de mooglikheid hat om it sprutsen wurd te werkennen en it op te skriuwen yn in programma, sadat jo op it lêst alles hawwe dat sprutsen is yn in skreaune opmaak. It wurdt ek faak oantsjutten as "spraak-nei-tekst". Yn it begjin hie dy software tige beheinde mooglikheden, sadat jo mar in beheind oantal frases omsette koene. Mei de tiid hat de technology efter spraakherkenningssoftware in protte ûntwikkele en is it no folle ferfine, sadat it ferskate talen en sels ferskate aksinten werkenne kin. Mar fansels moat der noch wurk dien wurde op dit mêd.
It is ek wichtich om te merken dat spraakherkenning net itselde is as spraakherkenning, ek al brûke minsken soms de twa termen foar itselde ding. Stimherkenning wurdt brûkt foar identifikaasje fan de persoan dy't praat en net om te notearjen wat der sein waard.
In koarte skiednis fan spraakherkenning en relatearre technology
Yn dit artikel sille wy koart de skiednis en technology efter de opkomst fan spraakherkenning útlizze.
Sûnt it begjin fan it digitale tiidrek hienen minsken de drang om op ien of oare manier mei masines te kommunisearjen. Nei't de earste soarte fan digitale kompjûter waard útfûn, hawwe in protte wittenskippers en yngenieurs op ferskate manieren besocht om op ien of oare manier spraakherkenning yn dit proses te ymplementearjen. In krúsjaal jier fan dit proses wie 1962, doe't IBM Shoebox iepenbiere, in basale spraakherkenningsmasine dy't ienfâldige wiskundige berekkeningen koe dwaan. As de brûker fan dizze proto-kompjûter yn in mikrofoan spruts, koe dizze masine maksimaal seis kontrôlewurden as "plus" of "minus" werkenne. Yn 'e rin fan' e tiid is de technology efter dit ûntwikkele en hjoed is it heul gewoane funksje om mei stim te kommunisearjen mei kompjûters. D'r binne in protte ferneamde spraakherkenningsmotoren lykas Siri of Alexa. It is wichtich om te notearjen dat dizze stim-oandreaune apparaten ôfhinklik binne fan keunstmjittige yntelliginsje (AI) en masine learen.
As keunstmjittige yntelliginsje (AI) wurdt neamd, kin it klinke as wat út in science fiction-film, mar de wierheid is dat yn 'e hjoeddeiske tiid AI in grutte rol spilet yn ús wrâld. Yn feite is AI al heul oanwêzich yn ús deistich libben, om't in protte programma's en apps it al brûke. Mar it wie science fiction oan it begjin fan 'e 20e ieu, doe't de term ûntstie. Yn 'e lette 1950 waarden de begripen fan AI mear prominint en wie it fokus fan belang fan in protte wittenskippers en filosofen. Yn dy tiid, in tige ambisjeuze Britske wiskundige neamd Alan Turing kaam mei in stelling dat masines kinne oplosse problemen en meitsje besluten troch harsels, basearre op ynfier fan beskikbere ynformaasje. It probleem wie dat kompjûters noch net de mooglikheid hiene om dizze gegevens te ûnthâlden, wat in krúsjale stap is foar ûntwikkeling fan keunstmjittige yntelliginsje. Alles wat se doe koenen dwaan wie ienfâldige kommando's út te fieren.
In oare wichtige namme yn 'e ûntwikkeling fan AI is John McCarthy, dy't earst de term "keunstmjittige yntelliginsje" betocht. McCarthy stelde dat AI is: "de wittenskip en technyk fan it meitsjen fan yntelliginte masines". Dizze definysje kaam oan it ljocht op in seminale konferinsje by Dartmouth College yn 1956. Fan doe ôf begon AI te ûntwikkeljen yn in frantic tempo.
Tsjintwurdich is keunstmjittige yntelliginsje yn har ferskate foarmen oeral oanwêzich. It is útgroeid ta massale oanname, benammen troch tanimming fan it totale folume fan gegevens dat elke dei wrâldwiid wurdt útwiksele. It wurdt brûkt yn avansearre algoritmen, en it joech oanlieding ta ferbetteringen yn opslach en berekkenjen macht. AI wurdt brûkt foar in protte doelen, bygelyks oersetting, transkripsje, spraak, gesichts- en objektherkenning, analyze fan medyske bylden, ferwurking fan natuerlike talen, ferskate sosjale netwurkfilters ensafuorthinne. Unthâld dy skaakwedstriid tusken grutmaster Gari Kasparov en Deep Blue chess AI?
Masine learen is in oare heul wichtige tapassing fan keunstmjittige yntelliginsje. Koartsein, it ferwiist nei alle systemen dy't de mooglikheid hawwe om te learen en te ferbetterjen fan 'e database fan har eigen ûnderfining. Dit wurket troch erkenning fan patroanen. Foar it systeem om dat te dwaan moat it trainearre wurde kinne. It algoritme fan it systeem krijt in ynfier fan grutte hoemannichten gegevens, en op in stuit wurdt it by steat om te identifisearjen patroanen út dy gegevens. It eindoel fan dit proses is om dizze kompjûtersystemen selsstannich te learen, sûnder de needsaak foar minsklike yntervinsje of bystân.
In oar ding dat heul wichtich is om te neamen neist masine learen is djip learen. Ien fan 'e wichtichste ark yn it proses fan djip learen binne de saneamde keunstmjittige neurale netwurken. Se binne avansearre algoritmen, fergelykber mei de struktuer en funksje fan it minsklik brein. Se binne lykwols statysk en symboalysk, yn tsjinstelling ta biologyske harsens dat plastysk is en mear analoog basearre. Koartsein, dit djippe learen is in heul spesjalisearre manier fan masine learen, primêr basearre op keunstmjittige neurale netwurken. It doel fan djip learen is om minsklike learprosessen nau te replikearjen. Deep learning technology is tige brûkber, en it spilet in wichtige rol yn ferskate apparaten dy't wurde regele troch de stim - tablets, TVs, smartphones, fridges ensfh Keunstmjittige neural netwurken wurde ek brûkt as in soarte fan filter systeem dat hat as doel om foarsizze de items dat de brûker soe keapje yn 'e takomst. Deep learning technology wurdt ek in soad brûkt yn it medyske fjild. It is tige wichtich foar kankerûndersikers, om't it helpt om kankersellen automatysk te ûntdekken.
No komme wy werom nei spraakherkenning. Dizze technology, lykas wy al neamden, hat as doel om ferskate wurden en útdrukkingen fan 'e sprutsen taal te identifisearjen. Neitiid konvertearret it se yn in formaat dat de masine kin lêze. Basisprogramma's identifisearje allinich in lyts oantal kaaiwurden, mar wat mear avansearre software foar spraakherkenning is by steat om alle soarten natuerlike spraak te ûntsiferjen. Spraakherkenningstechnology is yn 'e measte gefallen handich, mar it komt soms foar problemen as de kwaliteit fan 'e opname net goed genôch is of as der eftergrûnlûden binne dy't it dreech meitsje om de sprekker goed te begripen. It kin ek noch wat problemen tsjinkomme as de sprekker in echt sterk aksint of in dialekt hat. Spraakherkenning wurdt hieltyd ûntwikkele, mar it is noch altyd net hielendal perfekt. Net alles giet oer wurden, masines binne noch net yn steat ta in protte dingen dy't minsken kinne, se binne bygelyks net yn steat om lichemstaal of de toan fan immen syn stim te ûntsiferjen. Om't mear gegevens lykwols wurde ûntsifere troch dizze avansearre algoritmen, lykje guon fan dizze útdagings yn swierrichheden te ferminderjen. Wa wit wat de takomst bringe sil? It is min te foarsizzen wêr't de spraakherkenning sil einigje. Bygelyks, Google hat al in protte súkses by it ymplementearjen fan software foar spraakherkenning yn Google Translate-motoren, en de masine leart en ûntwikkelje konstant. Miskien op in dei sille se minsklike oersetters folslein ferfange. Of miskien net, deistige spraaksituaasjes binne te kompleks foar elke soart masine dy't de djipte fan 'e minsklike siel net kin lêze.
Wannear moatte jo spraakherkenning brûke?
Tsjintwurdich hat hast elkenien in smartphone of in tablet. Spraakherkenning is in mienskiplike skaaimerk yn dy apparaten. Se wurde brûkt om in persoan taspraak yn aksje te feroarjen. As jo jo beppe wolle skilje, is it genôch dat jo "beppe belje" befelje en jo smartphone belt it nûmer al sûnder dat jo jo kontaktlisten hoege te typen. Dit is spraakherkenning. In oar goed foarbyld dêrfan is Alexa of Siri. Se hawwe ek dizze funksje hard-wired yn har systeem. Google jout jo ek de opsje om alles mei stim te sykjen, sûnder wat yn te typen.
Miskien binne jo no nijsgjirrich nei hoe't dit alles wurket. No, om it te wurkjen, moatte sensors lykas mikrofoans yn 'e software ynboud wurde, sadat de lûdswellen fan' e sprutsen wurden wurde herkend, analysearre en omboud ta in digitaal formaat. De digitale ynformaasje moat dan ferlike wurde mei oare ynformaasje dy't opslein is yn in soarte fan wurd- en útdrukkingsrepository. As der in wedstriid is, kin de software it kommando werkenne en dêrop hannelje.
Ien mear ding dat op dit punt moat wurde neamd is de saneamde WER (wurdflaterrate). Dit is in formule wêryn jo it flaternûmer diele mei it totaal fan wurden. Dat, om it yn ienfâldige termen te setten, hat it in protte te meitsjen mei krektens. It doel is fansels om in lege WER te hawwen, want dit betsjut dat de transkripsje fan it sprutsen wurd krekter is.
Spraakherkenning is no yn fraach as altyd. As jo it sprutsen wurd ek moatte konvertearje fan lit ús sizze in opnommen audiobestân nei tekst, kinne jo nei Gglot gean. Wy binne in provider fan transkripsjetsjinsten dy't krekte transkripsjes biedt foar in earlike priis. Wifkje dus net om kontakt op te nimmen fia ús brûkerfreonlike webside.