Wat genau ass Speech Recognition?
Ried Unerkennung
Wat Dir iwwer Riederkennung wësse musst
Wa mir iwwer Riederkennung schwätzen, mengen mir normalerweis eng Software déi d'Fäegkeet huet dat geschwat Wuert z'erkennen an et an engem Programm opzeschreiwen sou datt Dir um Enn alles hutt wat an engem schrëftleche Format geschwat gouf. Et gëtt och dacks als "Ried-zu-Text" bezeechent. Am Ufank hat déi Software ganz limitéiert Méiglechkeeten, sou datt Dir nëmmen eng limitéiert Zuel vu Sätze konvertéieren. Mat der Zäit huet d'Technologie hannert Riederkennungssoftware vill entwéckelt an ass elo vill méi raffinéiert, sou datt se verschidde Sproochen a souguer verschidden Akzenter erkennen kann. Mä natierlech muss nach Aarbecht an dësem Beräich gemaach ginn.
Et ass och wichteg ze bemierken datt Riederkennung net d'selwecht ass wéi Stëmmerkennung, och wann heiansdo d'Leit déi zwee Begrëffer fir déiselwecht Saach benotzen. Stëmmerkennung gëtt benotzt fir d'Identifikatioun vun der Persoun déi schwätzt an net ze notéieren wat gesot gouf.
Eng kuerz Geschicht vu Riederkennung a verbonne Technologie
An dësem Artikel wäerte mir kuerz d'Geschicht an d'Technologie hannert dem Opstig vun der Riederkennung erklären.
Zënter dem Sonnenopgang vum digitalen Zäitalter haten d'Leit den Drang iergendwéi fäeg mat Maschinnen ze kommunizéieren. Nodeems déi éischt Zort digitale Computer erfonnt gouf, hu vill Wëssenschaftler an Ingenieuren op verschidde Manéiere probéiert d'Riederkennung iergendwéi an dëse Prozess ëmzesetzen. E entscheedend Joer vun dësem Prozess war 1962, wéi IBM Shoebox opgedeckt huet, eng Basis Riederkennungsmaschinn déi fäeg war einfach mathematesch Berechnungen ze maachen. Wann de Benotzer vun dësem Proto-Computer an e Mikrofon geschwat huet, konnt dës Maschinn bis zu sechs Kontrollwierder wéi "Plus" oder "Minus" erkennen. Mat der Zäit huet d'Technologie hannendrun entwéckelt an haut ass et ganz heefeg Feature fir mat Computeren duerch Stëmm ze interagéieren. Et gi vill berühmte Riederkennungsmotoren wéi Siri oder Alexa. Et ass wichteg ze notéieren datt dës Stëmm-Undriff Geräter ofhängeg vun der kënschtlecher Intelligenz (AI) a Maschinnléieren sinn.
Wann kënschtlech Intelligenz (AI) ernimmt gëtt, da kléngt et vläicht wéi eppes aus engem Science Fiction Film, awer d'Wourecht ass datt an haut an Alter AI eng grouss Roll an eiser Welt spillt. Tatsächlech ass AI scho ganz präsent an eisem Alldag, well vill Programmer an Apps et scho benotzen. Awer et war Science Fiction am Ufank vum 20. Joerhonnert, wéi de Begrëff entstanen ass. Am spéiden 1950 goufen d'Konzepter vun AI méi prominent a war de Fokus vun Interesse vu ville Wëssenschaftler a Philosophen. An där Zäit ass e ganz ambitiéise britesche Mathematiker mam Numm Alan Turing mat enger Propositioun komm datt Maschinnen Problemer léise kënnen an Entscheedunge selwer treffen, baséiert op Input vun verfügbaren Informatioun. De Problem war datt Computeren nach net d'Méiglechkeet hunn dës Donnéeën ze memoriséieren, wat e wesentleche Schrëtt fir d'Entwécklung vu kënschtlecher Intelligenz ass. Alles wat se deemools konnten maachen war einfach Kommandoen auszeféieren.
En anere wichtegen Numm an der Entwécklung vun AI ass den John McCarthy, deen als éischt de ganz Begrëff "kënschtlech Intelligenz" entwéckelt huet. De McCarthy sot datt AI ass: "d'Wëssenschaft an d'Ingenieur fir intelligent Maschinnen ze maachen". Dës Definitioun koum an d'Liicht op enger seminaler Konferenz am Dartmouth College am Joer 1956. Vun do un huet AI ugefaang mat engem frene Tempo ze entwéckelen.
Haut ass kënschtlech Intelligenz a senger verschiddene Form iwwerall präsent. Et ass zu Massadoptioun gewuess, haaptsächlech wéinst der Erhéijung vum Gesamtvolumen vun Daten, déi all Dag weltwäit ausgetosch ginn. Et gëtt a fortgeschratt Algorithmen benotzt, an et huet zu Verbesserungen an der Lagerung an der Rechenkraaft gefouert. AI gëtt fir vill Zwecker benotzt, zum Beispill Iwwersetzung, Transkriptioun, Ried, Gesiichts- an Objekterkennung, Analyse vu medizinesche Biller, Veraarbechtung vun natierleche Sproochen, verschidde sozial Netzwierkfilter a sou weider. Erënnert Dir Iech un dee Schachmatch tëscht Groussmeeschter Gari Kasparov an Deep Blue Schach AI?
Maschinnléieren ass eng aner ganz wichteg Applikatioun vu kënschtlecher Intelligenz. Kuerz gesot, et bezitt sech op all Systemer déi d'Fäegkeet hunn aus der Datebank vun hirer eegener Erfahrung ze léieren a verbesseren. Dëst funktionnéiert duerch Unerkennung vu Mustere. Fir de System dat ze maachen, muss et trainéiert ginn. Den Algorithmus vum System kritt en Input vu grousse Quantitéiten un Daten, an op engem Punkt ass et fäeg Mustere vun dësen Daten z'identifizéieren. D'Ennziel vun dësem Prozess ass et fir dës Computersystemer z'erméiglechen onofhängeg ze léieren, ouni d'Noutwendegkeet vun enger mënschlecher Interventioun oder Hëllef.
Eng aner Saach déi ganz wichteg ass niewent Maschinnléieren ze ernimmen ass déif Léieren. Ee vun de wichtegsten Tools am Prozess vum Deep Learning sinn déi sougenannte kënschtlech neural Netzwierker. Si sinn fortgeschratt Algorithmen, ähnlech wéi d'Struktur an d'Funktioun vum mënschleche Gehir. Wéi och ëmmer, si si statesch a symbolesch, am Géigesaz zum biologesche Gehir, dee plastesch a méi analog baséiert ass. Kuerz gesot, dëst déif Léieren ass eng ganz spezialiséiert Manéier vu Maschinnléieren, haaptsächlech baséiert op kënschtlechen neuralen Netzwierker. D'Zil vum Deep Learning ass d'mënschlech Léierprozesser no ze replizéieren. Deep Learning Technologie ass ganz nëtzlech, an et spillt eng wichteg Roll a verschiddenen Apparater, déi vun der Stëmm kontrolléiert ginn - Pëllen, Fernseher, Smartphones, Frigoen asw. datt de Benotzer an Zukunft géif kafen. Deep Learning Technologie ass och ganz wäit am medizinesche Beräich benotzt. Et ass ganz wichteg fir Kriibsfuerscher, well et hëlleft automatesch Kriibszellen z'entdecken.
Elo komme mer zréck op Riederkennung. Dës Technologie, wéi mir scho gesot hunn, zielt fir verschidde Wierder an Ausdréck vun der geschwate Sprooch ze identifizéieren. Duerno konvertéiert se se an e Format dat d'Maschinn liese kann. Basis Programmer identifizéieren nëmmen eng kleng Unzuel vu Schlëssel Sätze, awer e puer méi fortgeschratt Riederkennungssoftware ass fäeg all Zorte vun natierleche Ried ze entzifferen. Speech Unerkennung Technologie ass bequem an de meeschte Fäll, awer et trëfft heiansdo Problemer wann d'Qualitéit vun der Opnam net gutt genuch ass oder wann et Hannergrondgeräischer sinn, déi et schwéier maachen de Spriecher richteg ze verstoen. Et kann och nach ëmmer e puer Probleemer begéinen wann de Spriecher e wierklech staarken Akzent oder en Dialekt huet. Sproocherkennung entwéckelt sech permanent, awer et ass nach ëmmer net ganz perfekt. Net alles geet ëm Wierder, Maschinnen sinn nach ëmmer net kapabel fir vill Saachen, déi d'Mënsche maache kënnen, zum Beispill kënnen se net d'Kierpersprooch oder den Toun vun enger Stëmm entschlësselen. Wéi och ëmmer, wéi méi Daten duerch dës fortgeschratt Algorithmen entschlësselt ginn, schéngen e puer vun dësen Erausfuerderungen a Schwieregkeeten ze reduzéieren. Wien weess wat d'Zukunft bréngt? Et ass schwéier virauszesoen wou d'Riedserkennung wäert ophalen. Zum Beispill huet Google scho vill Erfolleg bei der Ëmsetzung vu Sproocherkennungssoftware a Google Translate Motoren, an d'Maschinn léiert stänneg an entwéckelt sech. Vläicht ersetzen se enges Daags mënschlech Iwwersetzer komplett. Oder vläicht net, alldeeglech Ried Situatiounen sinn ze komplex fir all Zort Maschinn, déi net fäeg ass d'Tiefe vun der mënschlecher Séil ze liesen.
Wéini benotzen ech Riederkennung?
Haut huet bal jiddereen e Smartphone oder Tablet. Riederkennung ass eng gemeinsam Feature an dësen Apparater. Si gi benotzt fir eng Persoun Ried an Handlung ëmzewandelen. Wann Dir Är Groussmamm uruffe wëllt, ass et genuch datt Dir "Uruff Bomi" commandéiert an Äre Smartphone rifft schonn d'Nummer ouni datt Dir duerch Är Kontaktlëschte musst tippen. Dëst ass Riederkennung. En anert gutt Beispill dovun, ass Alexa oder Siri. Si hunn och dës Fonktioun hard-wired an hirem System. Google gëtt Iech och d'Optioun fir eppes mat Stëmm ze sichen, ouni eppes ze tippen.
Vläicht sidd Dir elo virwëtzeg wéi dat alles funktionnéiert. Gutt, fir datt et funktionnéiert, mussen Sensoren wéi Mikrofonen an d'Software agebaut ginn, sou datt d'Schallwellen vun de geschwatene Wierder erkannt, analyséiert an an en digitale Format ëmgewandelt ginn. Déi digital Informatioun muss dann mat aneren Informatioune verglach ginn, déi an enger Aart vu Wierder- an Ausdrockrepository gespäichert sinn. Wann et e Match ass, kann d'Software de Kommando erkennen an deementspriechend handelen.
Eng méi Saach déi op dësem Punkt ernimmt muss ginn ass de sougenannte WER (Wuertfehlerquote). Dëst ass eng Formel an där Dir d'Fehlerzuel mat dem Total vu Wierder deelt. Also, fir et an einfache Begrëffer ze soen, huet et vill mat Genauegkeet ze dinn. D'Zil ass natierlech en nidderegen WER ze hunn, well dëst bedeit datt d'Transkriptioun vum geschwatene Wuert méi genee ass.
Riedserkennung ass elo sou vill wéi jee gefrot. Wann Dir och d'geschwat Wuert muss konvertéieren vu loosst eis eng opgeholl Audiodatei an Text konvertéieren, kënnt Dir op Gglot wenden. Mir sinn en Transkriptiounsserviceprovider deen präzis Transkriptiounen fir e faire Präis ubitt. Also zéckt net fir iwwer eis userfrëndlech Websäit ze kontaktéieren.