Kio ĝuste estas Parola Rekono?
Parola rekono
Kion vi bezonas scii pri parolrekono
Kiam ni parolas pri parolrekono, kutime ni celas programaron, kiu havas la kapablon rekoni la parolitan vorton kaj skribi ĝin en programo, do finfine vi havas ĉion, kio estis parolita en skriba formato. Ĝi ankaŭ estas ofte referita kiel "parolado-al-teksto". En la komenco tiu programaro havis tre limigitajn eblecojn, tiel ke vi povis konverti nur limigitan nombron da frazoj. Kun la tempo, la teknologio malantaŭ parolrekona programaro multe disvolviĝis kaj ĝi nun estas multe pli kompleksa, tiel ke ĝi povas rekoni malsamajn lingvojn kaj eĉ malsamajn akcentojn. Sed kompreneble, estas ankoraŭ laboro farenda en ĉi tiu kampo.
Ankaŭ gravas rimarki, ke parolrekono ne samas kiel voĉrekono, kvankam foje homoj uzas la du terminojn por la sama afero. Voĉa rekono estas uzata por identigi la personon kiu parolas kaj ne por noti tion, kio estis dirita.
Mallonga historio de parolrekono kaj rilata teknologio
En ĉi tiu artikolo, ni mallonge klarigos la historion kaj teknologion malantaŭ la pliiĝo de parolrekono.
Ekde la krepusko de la cifereca epoko, homoj havis deziron iel povi komuniki kun maŝinoj. Post kiam la unua speco de cifereca komputilo estis inventita, multaj sciencistoj kaj inĝenieroj provis diversmaniere iel efektivigi parolrekonon en ĉi tiun procezon. Decida jaro de ĉi tiu procezo estis 1962, kiam IBM rivelis Shoebox, bazan parolrekonan maŝinon kiu povis fari simplajn matematikajn kalkulojn. Se la uzanto de ĉi tiu prakomputilo parolis en mikrofonon, ĉi tiu maŝino povis rekoni ĝis ses kontrolvortojn kiel "plus" aŭ "minus". Kun la tempo, la teknologio malantaŭ ĉi tio evoluis kaj hodiaŭ estas tre ofta trajto interagi kun komputiloj per voĉo. Estas multaj famaj parolrekonaj motoroj kiel Siri aŭ Alexa. Gravas noti, ke ĉi tiuj voĉaj aparatoj dependas de artefarita inteligenteco (AI) kaj maŝinlernado.
Kiam artefarita inteligenteco (AI) estas menciita, ĝi povus soni kiel io el sciencfikcia filmo, sed la vero estas, ke en la hodiaŭa tempo AI ludas grandan rolon en nia mondo. Fakte, AI jam tre ĉeestas en nia ĉiutaga vivo, ĉar multaj programoj kaj programoj jam uzas ĝin. Sed temis pri sciencfikcio komence de la 20-a jarcento, kiam aperis la termino. En la malfruaj 1950 la konceptoj de AI iĝis pli elstaraj kaj estis la fokuso de intereso de multaj sciencistoj kaj filozofoj. En tiu tempo, tre ambicia brita matematikisto nomita Alan Turing elpensis proponon ke maŝinoj povas solvi problemojn kaj fari decidojn memstare, surbaze de enigo de disponeblaj informoj. La problemo estis, ke komputiloj ankoraŭ ne havis la eblecon enmemorigi tiujn datumojn, kio estas decida paŝo por disvolviĝo de artefarita inteligenteco. Ĉio, kion ili povis fari tiam, estis ekzekuti simplajn komandojn.
Alia grava nomo en la disvolviĝo de AI estas John McCarthy, kiu unue elpensis la terminon "artefarita inteligenteco". McCarthy deklaris ke AI estas: "la scienco kaj inĝenieristiko de farado de inteligentaj maŝinoj". Ĉi tiu difino aperis ĉe pionira konferenco en Dartmouth College en 1956. De tiam AI komencis disvolviĝi je panika rapideco.
Hodiaŭ artefarita inteligenteco en sia diversa formo ĉeestas ĉie. Ĝi kreskis al amasa adopto, ĉefe pro pliiĝo en la totala volumo de datumoj, kiuj estas interŝanĝitaj tutmonde ĉiutage. Ĝi estas uzata en altnivelaj algoritmoj, kaj ĝi kaŭzis plibonigojn en stokado kaj komputika potenco. AI estas uzata por multaj celoj, ekzemple tradukado, transskribo, parolo, rekono de vizaĝo kaj objekto, analizo de medicinaj bildoj, prilaborado de naturaj lingvoj, diversaj filtriloj de sociaj retoj ktp. Memoru tiun ŝakmatĉon inter grandmajstro Gari Kasparov kaj Deep Blue chess AI?
Maŝina lernado estas alia tre grava apliko de artefarita inteligenteco. Mallonge, ĝi rilatas al iuj sistemoj, kiuj havas la kapablon lerni kaj plibonigi de la datumbazo de sia propra sperto. Ĉi tio funkcias per rekono de ŝablonoj. Por ke la sistemo faru tion ĝi devas esti kapabla esti trejnita. La algoritmo de la sistemo ricevas enigaĵon de grandaj kvantoj da datenoj, kaj ĉe unu poento ĝi iĝas kapabla identigi padronojn de tiuj datenoj. La fina celo de ĉi tiu procezo estas ebligi al ĉi tiuj komputilaj sistemoj lerni sendepende, sen la bezono de iu homa interveno aŭ helpo.
Alia afero, kiu estas tre grava mencii apud maŝinlernado, estas profunda lernado. Unu el la plej gravaj iloj en la procezo de profunda lernado estas la tiel nomataj artefaritaj neŭralaj retoj. Ili estas altnivelaj algoritmoj, similaj al la strukturo kaj funkcio de la homa cerbo. Tamen, ili estas senmovaj kaj simbolaj, male al biologia cerbo kiu estas plasta kaj pli analoga bazita. Resume, ĉi tiu profunda lernado estas tre speciala maniero de maŝinlernado, ĉefe bazita sur artefaritaj neŭralaj retoj. La celo de profunda lernado estas proksime reprodukti homajn lernajn procezojn. Profunda lernado-teknologio estas tre utila, kaj ĝi ludas gravan rolon en diversaj aparatoj, kiuj estas regataj de la voĉo - tablojdoj, televidiloj, saĝtelefonoj, fridujoj ktp. Artefaritaj neŭralaj retoj ankaŭ estas uzataj kiel speco de filtra sistemo, kiu celas antaŭdiri la erojn. ke la uzanto aĉetus estonte. Profunda lernado teknologio ankaŭ estas tre vaste uzata en la medicina kampo. Ĝi estas tre grava por kanceresploristoj, ĉar ĝi helpas aŭtomate detekti kancerajn ĉelojn.
Nun ni revenos al parolrekono. Ĉi tiu teknologio, kiel ni jam menciis, celas identigi diversajn vortojn kaj frazojn de la parola lingvo. Poste ĝi konvertas ilin en formaton, kiun la maŝino povas legi. Bazaj programoj nur identigas malgrandan nombron da ŝlosilaj frazoj, sed iu pli altnivela programaro pri rekono de parolo kapablas deĉifri ĉiajn naturajn parolojn. Parola rekono teknologio estas oportuna en la plej multaj kazoj, sed ĝi foje renkontas problemojn kiam la kvalito de la registrado ne estas sufiĉe bona aŭ kiam ekzistas fonaj bruoj kiuj malfaciligas ĝuste kompreni la parolanton. Ĝi ankaŭ povus ankoraŭ renkonti kelkajn problemojn kiam la parolanto havas vere fortan akĉenton aŭ dialekton. Parola rekono konstante disvolviĝas, sed ĝi ankoraŭ ne estas tute perfekta. Ne ĉio temas pri vortoj, maŝinoj ankoraŭ ne kapablas je multaj aferoj, kiujn homoj povas fari, ekzemple ili ne kapablas deĉifri korpan lingvon aŭ la tonon de ies voĉo. Tamen, ĉar pli da datumoj estas deĉifritaj per ĉi tiuj progresintaj algoritmoj, kelkaj el ĉi tiuj defioj ŝajnas malpliiĝi en malfacileco. Kiu scias, kion alportos la estonteco? Estas malfacile antaŭdiri kie la parolrekono finiĝos. Ekzemple, Guglo jam havas multan sukceson en efektivigo de parolrekono-programaro en Google Translate-motoroj, kaj la maŝino konstante lernas kaj disvolvas. Eble iam ili tute anstataŭigos homajn tradukistojn. Aŭ eble ne, ĉiutagaj parolsituacioj estas tro kompleksaj por ia maŝino, kiu ne kapablas legi la profundon de homa animo.
Kiam uzi parolrekonon?
Nuntempe preskaŭ ĉiuj havas saĝtelefonon aŭ tablojdon. Parola rekono estas komuna trajto en tiuj aparatoj. Ili estas uzataj por konverti personan paroladon en ago. Se vi volas telefoni vian avinon, sufiĉas, ke vi ordonas "voki avinon" kaj via inteligenta telefono jam markas la numeron sen ke vi devas tajpi per viaj kontaktlistoj. Ĉi tio estas parolrekono. Alia bona ekzemplo de tio, estas Alexa aŭ Siri. Ili ankaŭ havas ĉi tiun funkcion malmola kablita en sia sistemo. Guglo donas al vi ankaŭ la eblon serĉi ion per voĉo, sen tajpi ion ajn.
Eble vi nun scivolas pri kiel ĉio ĉi funkcias. Nu, por ke ĝi funkciu, sensiloj kiel mikrofonoj devas esti enkonstruitaj en la programaron por ke la sonondoj de la parolataj vortoj estu rekonitaj, analizitaj kaj konvertitaj al cifereca formato. La ciferecaj informoj tiam devas esti komparitaj kun aliaj informoj, kiuj estas konservitaj en ia deponejo de vortoj kaj esprimoj. Kiam estas kongruo, la programaro povas rekoni la komandon kaj agi laŭe.
Unu plia afero, kiu devas esti menciita ĉi-momente, estas la tiel nomata WER (vorta eraroprocento). Ĉi tio estas formulo, en kiu vi dividas la eraran nombron kun la tuta nombro de vortoj. Do, por diri ĝin en simplaj terminoj, ĝi multe rilatas al precizeco. La celo estas kompreneble havi malaltan WER, ĉar tio signifas, ke la transskribo de la parolata vorto estas pli preciza.
Parolrekono nun estas postulata same kiel iam. Se vi ankaŭ bezonas konverti la parolitan vorton de ni diru registrita sondosiero al teksto, vi povas turni sin al Gglot. Ni estas transskriba servo provizanto kiu ofertas precizajn transskribojn por justa prezo. Do, ne hezitu kontakti per nia uzant-amika retejo.