Utambuzi wa Usemi ni nini hasa?

Utambuzi wa usemi

Unachohitaji kujua kuhusu utambuzi wa hotuba

Tunapozungumza juu ya utambuzi wa usemi, kwa kawaida tunamaanisha programu ambayo ina uwezo wa kutambua neno lililozungumzwa na kuliandika katika programu ili mwishowe uwe na kila kitu ambacho kimezungumzwa katika muundo ulioandikwa. Pia mara nyingi hujulikana kama "hotuba-kwa-maandishi". Hapo mwanzo programu hiyo ilikuwa na uwezekano mdogo sana, ili uweze kubadilisha idadi ndogo tu ya misemo. Kwa wakati, teknolojia iliyo nyuma ya programu ya utambuzi wa usemi imeendelea sana na sasa ni ya kisasa zaidi, ili iweze kutambua lugha tofauti na hata lafudhi tofauti. Lakini bila shaka, bado kuna kazi ambayo inahitaji kufanywa katika uwanja huu.

Ni muhimu pia kutambua kuwa utambuzi wa usemi si sawa na utambuzi wa sauti, ingawa wakati mwingine watu hutumia istilahi hizi mbili kwa kitu kimoja. Utambuzi wa sauti hutumiwa kutambua mtu anayezungumza na sio kutambua kile kilichokuwa kinasemwa.

Historia fupi ya utambuzi wa usemi na teknolojia inayohusiana

Katika makala haya, tutaelezea kwa ufupi historia na teknolojia nyuma ya kuongezeka kwa utambuzi wa usemi.

Tangu mwanzo wa enzi ya dijiti, watu walikuwa na hamu ya kuweza kuwasiliana na mashine. Baada ya aina ya kwanza ya kompyuta ya kidijitali kuvumbuliwa, wanasayansi na wahandisi wengi wamejaribu kwa njia mbalimbali kwa namna fulani kutekeleza utambuzi wa usemi katika mchakato huu. Mwaka muhimu wa mchakato huu ulikuwa 1962, wakati IBM ilipofichua Shoebox, mashine ya msingi ya utambuzi wa usemi ambayo iliweza kufanya hesabu rahisi za hesabu. Ikiwa mtumiaji wa proto-kompyuta hii alizungumza kwenye maikrofoni, mashine hii iliweza kutambua hadi maneno sita ya kudhibiti kama vile "plus" au "minus". Baada ya muda, teknolojia nyuma ya hii ilitengenezwa na leo ni kipengele cha kawaida sana kuingiliana na kompyuta kwa sauti. Kuna injini nyingi maarufu za utambuzi wa usemi kama Siri au Alexa. Ni muhimu kutambua vifaa hivi vinavyoendeshwa kwa sauti vinategemea akili bandia (AI) na kujifunza kwa mashine.

Wakati akili ya bandia (AI) inapotajwa, inaweza kuonekana kama kitu kutoka kwa filamu ya kubuni ya kisayansi, lakini ukweli ni kwamba katika siku za leo AI ina jukumu kubwa katika ulimwengu wetu. Kwa kweli, AI tayari iko sana katika maisha yetu ya kila siku, kwani programu nyingi na programu tayari zinaitumia. Lakini ilikuwa hadithi ya kisayansi mwanzoni mwa karne ya 20, wakati neno hilo lilipoibuka. Mwishoni mwa 1950 dhana za AI zilijulikana zaidi na ilikuwa lengo la maslahi ya wanasayansi wengi na wanafalsafa. Wakati huo, mwanahisabati Mwingereza aliyetamani sana anayeitwa Alan Turing alikuja na pendekezo kwamba mashine zinaweza kutatua shida na kufanya maamuzi peke yao, kulingana na maoni ya habari inayopatikana. Shida ilikuwa kwamba kompyuta bado hazikuwa na uwezekano wa kukariri data hiyo, ambayo ni hatua muhimu kwa ukuzaji wa akili ya bandia. Walichoweza kufanya wakati huo ni kutekeleza amri rahisi.

Jina lingine muhimu katika maendeleo ya AI ni John McCarthy, ambaye kwanza aliunda neno "akili ya bandia". McCarthy alisema kuwa AI ni: "sayansi na uhandisi wa kutengeneza mashine zenye akili". Ufafanuzi huu ulikuja kujulikana katika mkutano wa semina katika Chuo cha Dartmouth mwaka wa 1956. Kuanzia hapo AI ilianza kukua kwa kasi ya ajabu.

Leo, akili ya bandia katika fomu yake mbalimbali iko kila mahali. Imekua hadi kupitishwa kwa wingi, hasa kutokana na kuongezeka kwa kiasi cha jumla cha data ambayo inabadilishwa duniani kote kila siku. Inatumika katika algoriti za hali ya juu, na ilileta uboreshaji wa uhifadhi na nguvu ya kompyuta. AI hutumiwa kwa madhumuni mengi, kwa mfano tafsiri, maandishi, hotuba, uso na utambuzi wa kitu, uchambuzi wa picha za matibabu, usindikaji wa lugha za asili, filters mbalimbali za mtandao wa kijamii na kadhalika. Unakumbuka ile mechi ya chess kati ya grandmaster Gari Kasparov na Deep Blue chess AI?

Haina jina 71

Kujifunza kwa mashine ni matumizi mengine muhimu sana ya akili ya bandia. Kwa kifupi, inarejelea mifumo yoyote ambayo ina uwezo wa kujifunza na kuboresha kutoka kwa hifadhidata ya uzoefu wao wenyewe. Hii inafanya kazi kupitia utambuzi wa mifumo. Ili mfumo ufanye hivyo unahitaji kuwa na uwezo wa kufundishwa. Algorithm ya mfumo hupokea pembejeo ya kiasi kikubwa cha data, na kwa wakati mmoja inakuwa na uwezo wa kutambua ruwaza kutoka kwa data hiyo. Lengo la mwisho la mchakato huu ni kuwezesha mifumo hii ya kompyuta kujifunza kwa kujitegemea, bila kuhitaji uingiliaji kati wa binadamu au usaidizi.

Jambo lingine ambalo ni muhimu sana kutaja pamoja na kujifunza kwa mashine ni kujifunza kwa kina. Moja ya zana muhimu zaidi katika mchakato wa kujifunza kwa kina ni ile inayoitwa mitandao ya neural ya bandia. Wao ni algorithms ya juu, sawa na muundo na kazi ya ubongo wa binadamu. Hata hivyo, ni tuli na ni ishara, tofauti na ubongo wa kibaolojia ambao ni wa plastiki na msingi zaidi wa analogi. Kwa kifupi, ujifunzaji huu wa kina ni njia maalum ya kujifunza kwa mashine, kimsingi kulingana na mitandao ya neva bandia. Lengo la kujifunza kwa kina ni kuiga kwa karibu michakato ya kujifunza ya binadamu. Teknolojia ya kujifunza kwa kina ni muhimu sana, na ina jukumu muhimu katika vifaa mbalimbali vinavyodhibitiwa na sauti - kompyuta kibao, TV, simu mahiri, friji n.k. Mitandao ya neva Bandia pia hutumika kama aina ya mfumo wa kuchuja unaolenga kutabiri vitu. ambayo mtumiaji angenunua katika siku zijazo. Teknolojia ya kujifunza kwa kina pia inatumika sana katika uwanja wa matibabu. Ni muhimu sana kwa watafiti wa saratani, kwa sababu inasaidia kugundua seli za saratani kiatomati.

Sasa tutarudi kwenye utambuzi wa hotuba. Teknolojia hii, kama tulivyotaja tayari, inalenga kubainisha maneno na vishazi mbalimbali vya lugha inayozungumzwa. Baadaye inazibadilisha kuwa umbizo ambalo mashine inaweza kusoma. Programu za kimsingi hutambua idadi ndogo ya vishazi muhimu tu, lakini baadhi ya programu za juu zaidi za utambuzi wa usemi zinaweza kubainisha kila aina ya matamshi asilia. Teknolojia ya utambuzi wa usemi ni rahisi katika hali nyingi, lakini wakati mwingine hukutana na matatizo wakati ubora wa rekodi si mzuri vya kutosha au wakati kuna kelele za chinichini ambazo hufanya iwe vigumu kuelewa mzungumzaji ipasavyo. Huenda pia bado ikakumbana na matatizo fulani wakati mzungumzaji ana lafudhi kali au lahaja. Utambuzi wa hotuba unaendelea kukua, lakini bado sio kamili kabisa. Sio kila kitu kinahusu maneno, mashine bado hazina uwezo wa mambo mengi ambayo wanadamu wanaweza kufanya, kwa mfano hawana uwezo wa kufafanua lugha ya mwili au sauti ya sauti ya mtu. Hata hivyo, data zaidi inavyochambuliwa na algoriti hizi za kina, baadhi ya changamoto hizi zinaonekana kupungua kwa ugumu. Ni nani anayejua nini kitatokea wakati ujao? Ni vigumu kutabiri ambapo utambuzi wa hotuba utaishia. Kwa mfano, Google tayari ina mafanikio mengi katika kutekeleza programu ya utambuzi wa usemi katika injini za Google Tafsiri, na mashine inajifunza na kuendeleza kila mara. Labda siku moja watachukua nafasi ya wafasiri wa kibinadamu kabisa. Au labda sivyo, hali ya hotuba ya kila siku ni ngumu sana kwa aina yoyote ya mashine ambayo haiwezi kusoma kina cha roho ya mwanadamu.

Wakati wa kutumia utambuzi wa usemi?

Siku hizi karibu kila mtu ana simu mahiri au kompyuta kibao. Utambuzi wa usemi ni kipengele cha kawaida katika vifaa hivyo. Hutumika kubadilisha hotuba ya mtu kuwa vitendo. Ikiwa unataka kumwita bibi yako, inatosha kuamuru "mpigie Bibi" na simu yako mahiri tayari inapiga nambari bila wewe kuchapa kupitia orodha zako za mawasiliano. Huu ni utambuzi wa hotuba. Mfano mwingine mzuri ni Alexa au Siri. Pia wana kipengele hiki chenye waya ngumu katika mfumo wao. Google hukupa pia chaguo la kutafuta chochote kwa sauti, bila kuandika chochote.

Haina jina 81

Labda sasa una hamu ya kujua jinsi haya yote yanafanya kazi. Kweli, ili ifanye kazi, vihisi kama maikrofoni lazima vijengewe kwenye programu ili mawimbi ya sauti ya maneno yanayozungumzwa yatambuliwe, kuchanganuliwa na kubadilishwa kuwa muundo wa dijiti. Taarifa ya kidijitali basi inabidi ilinganishwe na taarifa nyingine ambazo zimehifadhiwa katika aina fulani ya hazina ya maneno na misemo. Wakati kuna mechi programu inaweza kutambua amri na kutenda ipasavyo.

Jambo moja zaidi ambalo linahitaji kutajwa katika hatua hii ni ile inayoitwa WER (kiwango cha makosa ya neno). Hii ni fomula ambayo unagawanya nambari ya makosa na jumla ya maneno. Kwa hiyo, ili kuiweka kwa maneno rahisi, ina mengi ya kufanya na usahihi. Lengo ni bila shaka kuwa na WER ya chini, kwa sababu hii ina maana kwamba unukuzi wa neno lililozungumzwa ni sahihi zaidi.

Utambuzi wa usemi sasa unahitajika kama zamani. Ikiwa unahitaji pia kubadilisha neno linalozungumzwa kutoka tuseme faili ya sauti iliyorekodiwa hadi maandishi, unaweza kugeukia Gglot. Sisi ni watoa huduma wa unukuzi ambao hutoa manukuu sahihi kwa bei nzuri. Kwa hivyo, usisite kuwasiliana kupitia tovuti yetu ambayo ni rafiki kwa watumiaji.