X'inhu eżattament ir-Rikonoxximent tad-Diskors?
Rikonoxximent tad-diskors
Dak li trid tkun taf dwar ir-rikonoxximent tad-diskors
Meta nkunu qed nitkellmu dwar ir-rikonoxximent tat-taħdit, ġeneralment infissru software li għandu l-abbiltà li jagħraf il-kelma mitkellma u li jiktebha fi programm biex fl-aħħar mill-aħħar ikollok dak kollu li jkun ġie mitkellem f’format miktub. Spiss tissejjaħ ukoll "speech-to-test". Fil-bidu dak is-software kellu possibbiltajiet limitati ħafna, sabiex inti tista 'tikkonverti biss numru limitat ta' frażijiet. Maż-żmien, it-teknoloġija wara s-software għar-rikonoxximent tad-diskors żviluppat ħafna u issa hija ħafna aktar sofistikata, sabiex tkun tista 'tagħraf lingwi differenti u anke aċċenti differenti. Imma ovvjament, għad hemm xogħol li jrid isir f’dan il-qasam.
Huwa importanti wkoll li wieħed jinnota li r-rikonoxximent tad-diskors mhuwiex l-istess bħar-rikonoxximent tal-vuċi, anke jekk xi drabi n-nies jużaw iż-żewġ termini għall-istess ħaġa. Ir-rikonoxximent tal-vuċi jintuża għall-identifikazzjoni tal-persuna li qed titkellem u mhux biex wieħed jinnota dak li kien qed jingħad.
Storja qasira ta 'rikonoxximent tad-diskors u teknoloġija relatata
F'dan l-artikolu, se nispjegaw fil-qosor l-istorja u t-teknoloġija wara ż-żieda tar-rikonoxximent tad-diskors.
Sa mill-bidu tal-era diġitali, in-nies kellhom ħeġġa biex b'xi mod ikunu jistgħu jikkomunikaw mal-magni. Wara li ġie ivvintat l-ewwel tip ta 'kompjuter diġitali, bosta xjenzati u inġiniera ppruvaw b'diversi modi biex b'xi mod jimplimentaw ir-rikonoxximent tad-diskors f'dan il-proċess. Sena kruċjali ta 'dan il-proċess kienet l-1962, meta IBM żvelat Shoebox, magna bażika ta' rikonoxximent tad-diskors li kienet kapaċi tagħmel kalkoli matematika sempliċi. Jekk l-utent ta 'dan il-proto-kompjuter tkellem f'mikrofonu, din il-magna kienet kapaċi tagħraf sa sitt kelmiet ta' kontroll bħal "plus" jew "minus". Maż-żmien, it-teknoloġija wara dan żviluppat u llum hija karatteristika komuni ħafna li jinteraġixxu ma 'kompjuters bil-vuċi. Hemm ħafna magni famużi ta 'rikonoxximent tad-diskors bħal Siri jew Alexa. Huwa importanti li wieħed jinnota li dawn l-apparati mmexxija mill-vuċi huma dipendenti fuq l-intelliġenza artifiċjali (AI) u t-tagħlim tal-magni.
Meta tissemma l-intelliġenza artifiċjali (AI), jista 'jkun qisu xi ħaġa minn film ta' fantaxjenza, iżda l-verità hija li fil-ġurnata u l-età tal-lum l-AI għandha rwol kbir fid-dinja tagħna. Fil-fatt, l-AI hija diġà preżenti ħafna fil-ħajja tagħna ta' kuljum, peress li ħafna programmi u apps diġà jużawha. Iżda kienet finzjoni xjentifika fil-bidu tas-seklu 20, meta tfaċċa t-terminu. Fl-aħħar tal-1950 il-kunċetti tal-IA saru aktar prominenti u kienu l-fokus ta 'interess ta' ħafna xjentisti u filosofi. F'dak iż-żmien, matematiku Brittaniku ambizzjuż ħafna msejjaħ Alan Turing ħareġ bi proposta li l-magni jistgħu jsolvu l-problemi u jieħdu deċiżjonijiet waħedhom, abbażi tal-input tal-informazzjoni disponibbli. Il-problema kienet li l-kompjuters għad ma kellhomx il-possibbiltà li jimmemorizzaw dik id-dejta, li hija pass kruċjali għall-iżvilupp tal-intelliġenza artifiċjali. Dak kollu li setgħu jagħmlu dakinhar kien li jesegwixxu kmandi sempliċi.
Isem importanti ieħor fl-iżvilupp tal-AI huwa John McCarthy, li l-ewwel ħoloq it-terminu stess "intelliġenza artifiċjali". McCarthy iddikjara li l-AI hija: "ix-xjenza u l-inġinerija biex isiru magni intelliġenti". Din id-definizzjoni ħarġet fid-dawl f'konferenza seminali f'Dartmouth College fl-1956. Minn dakinhar 'l quddiem l-IA bdiet tiżviluppa b'pass sfrenat.
Illum, l-intelliġenza artifiċjali fil-forma differenti tagħha hija preżenti kullimkien. Din kibret għal adozzjoni tal-massa, prinċipalment minħabba żieda fil-volum ġenerali ta 'dejta li qed tiġi skambjata madwar id-dinja kuljum. Jintuża f'algoritmi avvanzati, u wassal għal titjib fil-ħżin u l-qawwa tal-kompjuters. L-AI tintuża għal ħafna skopijiet, pereżempju traduzzjoni, traskrizzjoni, diskors, rikonoxximent tal-wiċċ u tal-oġġett, analiżi ta 'immaġini mediċi, ipproċessar ta' lingwi naturali, filtri varji tan-netwerk soċjali eċċ. Ftakar dik il-logħba taċ-ċess bejn il-granmastru Gari Kasparov u l-AI taċ-ċess Deep Blue?
It-tagħlim bil-magni huwa applikazzjoni oħra importanti ħafna tal-intelliġenza artifiċjali. Fil-qosor, tirreferi għal kwalunkwe sistema li għandha l-abbiltà li jitgħallmu u jtejbu mid-database tal-esperjenza tagħhom stess. Dan jaħdem permezz ta 'rikonoxximent ta' mudelli. Biex is-sistema tagħmel dan jeħtieġ li tkun tista' tiġi mħarrġa. L-algoritmu tas-sistema jirċievi input ta 'ammonti kbar ta' dejta, u f'punt wieħed isir kapaċi jidentifika mudelli minn dik id-dejta. L-għan aħħari ta' dan il-proċess huwa li dawn is-sistemi tal-kompjuter ikunu jistgħu jitgħallmu b'mod indipendenti, mingħajr il-ħtieġa ta' xi intervent jew assistenza umana.
Ħaġa oħra li hija importanti ħafna li tissemma flimkien mat-tagħlim tal-magni hija t-tagħlim fil-fond. Waħda mill-aktar għodod importanti fil-proċess tat-tagħlim fil-fond huma l-hekk imsejħa netwerks newrali artifiċjali. Huma algoritmi avvanzati, simili għall-istruttura u l-funzjoni tal-moħħ tal-bniedem. Madankollu, huma statiċi u simboliċi, b'differenza mill-moħħ bijoloġiku li huwa plastik u aktar ibbażat fuq l-analogu. Fil-qosor, dan it-tagħlim profond huwa mod speċjalizzat ħafna ta 'tagħlim tal-magni, primarjament ibbażat fuq netwerks newrali artifiċjali. L-għan tat-tagħlim fil-fond huwa li jiġu replikati mill-qrib il-proċessi tat-tagħlim tal-bniedem. It-teknoloġija tat-tagħlim fil-fond hija utli ħafna, u għandha rwol importanti f'diversi apparati li huma kkontrollati mill-vuċi - pilloli, televiżjonijiet, smartphones, friġġijiet eċċ. Netwerks newrali artifiċjali jintużaw ukoll bħala tip ta 'sistema ta' filtrazzjoni li għandha l-għan li tbassar l-oġġetti. li l-utent jixtri fil-futur. It-teknoloġija tat-tagħlim profond hija wkoll użata ħafna fil-qasam mediku. Huwa importanti ħafna għar-riċerkaturi tal-kanċer, għax jgħin biex jindividwaw awtomatikament iċ-ċelloli tal-kanċer.
Issa nerġgħu nerġgħu lura għar-rikonoxximent tad-diskors. Din it-teknoloġija, kif diġà semmejna, għandha l-għan li tidentifika diversi kliem u frażijiet tal-lingwa mitkellma. Wara tikkonvertihom f'format li l-magna tkun kapaċi taqra. Programmi bażiċi jidentifikaw biss numru żgħir ta 'frażijiet ewlenin, iżda xi softwer ta' rikonoxximent tad-diskors aktar avvanzat huwa kapaċi jiddeċifra kull tip ta 'diskors naturali. It-teknoloġija ta 'rikonoxximent tad-diskors hija konvenjenti fil-biċċa l-kbira tal-każijiet, iżda xi drabi tiltaqa' ma 'problemi meta l-kwalità tar-reġistrazzjoni ma tkunx tajba biżżejjed jew meta jkun hemm ħsejjes fl-isfond li jagħmluha diffiċli biex tifhem sew il-kelliem. Jista 'wkoll xorta tiltaqa' ma 'xi problemi meta l-kelliem ikollu aċċent jew djalett tassew qawwi. Ir-rikonoxximent tad-diskors qed jiżviluppa kontinwament, iżda għadu mhux perfett. Mhux kollox huwa dwar il-kliem, il-magni għadhom mhumiex kapaċi għal ħafna affarijiet li l-bnedmin jistgħu jagħmlu, pereżempju mhumiex kapaċi jiddeċifraw il-lingwaġġ tal-ġisem jew it-ton tal-vuċi ta 'xi ħadd. Madankollu, hekk kif aktar dejta tiġi deċifrata minn dawn l-algoritmi avvanzati, xi wħud minn dawn l-isfidi jidhru li jonqsu fid-diffikultà. Min jaf x’se jġib il-futur? Huwa diffiċli li wieħed ibassar fejn se jispiċċa r-rikonoxximent tad-diskors. Pereżempju, Google diġà qed ikollu ħafna suċċess fl-implimentazzjoni ta 'softwer ta' rikonoxximent tad-diskors fil-magni Google Translate, u l-magna qed titgħallem u tiżviluppa kontinwament. Forsi xi darba se jieħdu post it-tradutturi umani kompletament. Jew forsi le, sitwazzjonijiet ta 'diskors ta' kuljum huma kumplessi wisq għal kull tip ta 'magna li ma tkunx kapaċi taqra l-profondità tar-ruħ tal-bniedem.
Meta tuża r-rikonoxximent tad-diskors?
Illum il-ġurnata kważi kulħadd għandu smartphone jew tablet. Ir-rikonoxximent tad-diskors huwa karatteristika komuni f'dawk l-apparati. Jintużaw biex jikkonvertu diskors ta’ persuna f’azzjoni. Jekk trid iċċempel lin-nanna tiegħek, huwa biżżejjed li tikkmanda "ċempel in-Nanna" u l-ismartphone tiegħek diġà qed iċċempel in-numru mingħajr ma jkollok għalfejn ittajpja permezz tal-listi ta 'kuntatt tiegħek. Dan huwa rikonoxximent tad-diskors. Eżempju tajjeb ieħor ta 'dan, huwa Alexa jew Siri. Huma għandhom ukoll din il-karatteristika hard-wired fis-sistema tagħhom. Google jagħtik ukoll l-għażla li tfittex xi ħaġa bil-vuċi, mingħajr ma ttajpja xejn.
Forsi issa int kurjuż dwar kif jaħdem dan kollu. Ukoll, biex taħdem, sensuri bħal mikrofoni jridu jinbnew fis-softwer sabiex il-mewġ tal-ħoss tal-kliem mitkellem jiġu rikonoxxuti, analizzati u kkonvertiti f'format diġitali. L-informazzjoni diġitali mbagħad trid tiġi mqabbla ma 'informazzjoni oħra li hija maħżuna f'xi tip ta' repożitorju ta 'kliem u espressjonijiet. Meta jkun hemm taqbila s-softwer jista 'jirrikonoxxi l-kmand u jaġixxi kif xieraq.
Ħaġa oħra li trid tissemma f'dan il-punt hija l-hekk imsejħa WER (rata ta' żball tal-kelma). Din hija formula li fiha taqsam in-numru tal-iżball mat-total tal-kliem. Allura, biex tpoġġiha f'termini sempliċi, għandha ħafna x'taqsam mal-eżattezza. L-għan huwa ovvjament li jkun hemm WER baxx, għaliex dan ifisser li t-traskrizzjoni tal-kelma mitkellma hija aktar preċiża.
Ir-rikonoxximent tad-diskors issa huwa mitlub daqs qatt qabel. Jekk għandek bżonn ukoll li tikkonverti l-kelma mitkellma minn ejja ngħidu fajl awdjo rreġistrat għal test, tista 'ddur għal Gglot. Aħna fornitur ta 'servizz ta' traskrizzjoni li joffri traskrizzjonijiet preċiżi għal prezz ġust. Allura, toqgħodx lura milli tagħmel kuntatt permezz tal-websajt tagħna faċli għall-utent.