Ano nga ba ang Speech Recognition?
Pagkilala sa pagsasalita
Ano ang kailangan mong malaman tungkol sa speech recognition
Kung pinag-uusapan natin ang tungkol sa speech recognition, kadalasan ang ibig nating sabihin ay isang software na may kakayahang kilalanin ang binibigkas na salita at isulat ito sa isang programa upang sa huli ay mayroon ka ng lahat ng sinabi sa isang nakasulat na format. Madalas din itong tinutukoy bilang "speech-to-text". Sa simula ang software na iyon ay may napakalimitadong mga posibilidad, upang maaari mo lamang i-convert ang isang limitadong bilang ng mga parirala. Sa paglipas ng panahon, ang teknolohiya sa likod ng speech recognition software ay nakabuo at ngayon ay mas sopistikado, upang makilala nito ang iba't ibang wika at maging ang iba't ibang accent. Pero siyempre, may trabaho pa rin na kailangang gawin sa larangang ito.
Mahalaga ring mapansin na ang speech recognition ay hindi katulad ng voice recognition, kahit na minsan ginagamit ng mga tao ang dalawang termino para sa parehong bagay. Ginagamit ang voice recognition para sa pagkilala sa taong nagsasalita at hindi para pansinin ang sinasabi.
Isang maikling kasaysayan ng speech recognition at kaugnay na teknolohiya
Sa artikulong ito, maikli nating ipapaliwanag ang kasaysayan at teknolohiya sa likod ng pag-usbong ng speech recognition.
Mula pa noong bukang-liwayway ng digital age, ang mga tao ay nagkaroon ng pagnanasa na kahit papaano ay makapag-usap sa mga makina. Matapos maimbento ang unang uri ng digital computer, maraming siyentipiko at inhinyero ang sumubok sa iba't ibang paraan upang kahit papaano ay ipatupad ang speech recognition sa prosesong ito. Ang isang mahalagang taon ng prosesong ito ay 1962, nang ihayag ng IBM ang Shoebox, isang pangunahing speech recognition machine na nakapagsagawa ng mga simpleng kalkulasyon sa matematika. Kung ang gumagamit ng proto-computer na ito ay nagsalita sa isang mikropono, nakilala ng makinang ito ang hanggang anim na mga control na salita tulad ng "plus" o "minus". Sa paglipas ng panahon, ang teknolohiya sa likod nito ay nabuo at ngayon ay napakakaraniwang tampok na makipag-ugnayan sa mga computer sa pamamagitan ng boses. Maraming sikat na speech recognition engine tulad ng Siri o Alexa. Mahalagang tandaan na ang mga voice-driven na device na ito ay nakadepende sa artificial intelligence (AI) at machine learning.
Kapag binanggit ang artificial intelligence (AI), maaaring parang mula sa isang science fiction na pelikula, ngunit ang totoo ay sa panahon ngayon, malaki ang ginagampanan ng AI sa ating mundo. Sa katunayan, ang AI ay naroroon na sa ating pang-araw-araw na buhay, dahil maraming mga programa at app ang gumagamit na nito. Ngunit ito ay science fiction sa simula ng ika-20 siglo, nang lumitaw ang termino. Sa huling bahagi ng 1950 ang mga konsepto ng AI ay naging mas kitang-kita at naging pokus ng interes ng maraming mga siyentipiko at pilosopo. Noong panahong iyon, isang napaka-ambisyosong British mathematician na tinatawag na Alan Turing ang nakaisip ng isang panukala na ang mga makina ay maaaring malutas ang mga problema at gumawa ng mga desisyon nang mag-isa, batay sa input ng magagamit na impormasyon. Ang problema ay ang mga computer ay wala pang posibilidad na isaulo ang data na iyon, na isang mahalagang hakbang para sa pagbuo ng artificial intelligence. Ang magagawa lang nila noon ay ang magsagawa ng mga simpleng utos.
Ang isa pang mahalagang pangalan sa pagbuo ng AI ay si John McCarthy, na unang lumikha ng mismong terminong "artificial intelligence". Sinabi ni McCarthy na ang AI ay: "ang agham at engineering ng paggawa ng mga matatalinong makina". Ang kahulugan na ito ay dumating sa liwanag sa isang matagumpay na kumperensya sa Dartmouth College noong 1956. Mula noon ang AI ay nagsimulang bumuo sa isang galit na galit na bilis.
Ngayon, ang artificial intelligence sa iba't ibang anyo nito ay naroroon sa lahat ng dako. Ito ay lumago sa malawakang pag-aampon, pangunahin dahil sa pagtaas sa kabuuang dami ng data na ipinagpapalit sa buong mundo araw-araw. Ginagamit ito sa mga advanced na algorithm, at nagbunga ito ng mga pagpapabuti sa storage at computing power. Ginagamit ang AI para sa maraming layunin, halimbawa pagsasalin, transkripsyon, pagsasalita, pagkilala sa mukha at bagay, pagsusuri ng mga medikal na larawan, pagproseso ng mga natural na wika, iba't ibang mga filter ng social network at iba pa. Tandaan na ang chess match sa pagitan ng grandmaster Gari Kasparov at Deep Blue chess AI?
Ang machine learning ay isa pang napakahalagang aplikasyon ng artificial intelligence. Sa madaling salita, ito ay tumutukoy sa anumang mga sistema na may kakayahang matuto at pagbutihin mula sa database ng kanilang sariling karanasan. Gumagana ito sa pamamagitan ng pagkilala sa mga pattern. Para magawa iyon ng system kailangan itong ma-train. Ang algorithm ng system ay tumatanggap ng input ng malalaking halaga ng data, at sa isang punto ay nagagawa nitong matukoy ang mga pattern mula sa data na iyon. Ang pangwakas na layunin ng prosesong ito ay paganahin ang mga computer system na ito na matuto nang nakapag-iisa, nang hindi nangangailangan ng anumang interbensyon o tulong ng tao.
Ang isa pang bagay na napakahalagang banggitin kasama ng machine learning ay ang malalim na pag-aaral. Ang isa sa pinakamahalagang kasangkapan sa proseso ng malalim na pag-aaral ay ang tinatawag na mga artipisyal na neural network. Ang mga ito ay mga advanced na algorithm, katulad ng istraktura at pag-andar ng utak ng tao. Gayunpaman, ang mga ito ay static at symbolic, hindi tulad ng biological na utak na plastic at mas analogue based. Sa madaling salita, ang malalim na pag-aaral na ito ay isang napaka-espesyal na paraan ng pag-aaral ng makina, pangunahin na batay sa mga artipisyal na neural network. Ang layunin ng malalim na pag-aaral ay malapit na gayahin ang mga proseso ng pagkatuto ng tao. Ang teknolohiya ng malalim na pag-aaral ay lubhang kapaki-pakinabang, at ito ay gumaganap ng isang mahalagang papel sa iba't ibang mga aparato na kinokontrol ng boses - mga tablet, TV, smartphone, refrigerator atbp. Ang mga artipisyal na neural network ay ginagamit din bilang isang uri ng sistema ng pag-filter na naglalayong hulaan ang mga item na bibilhin ng gumagamit sa hinaharap. Ang teknolohiya ng malalim na pag-aaral ay malawak ding ginagamit sa larangang medikal. Napakahalaga nito sa mga mananaliksik ng kanser, dahil nakakatulong ito upang awtomatikong makita ang mga selula ng kanser.
Ngayon ay babalik tayo sa speech recognition. Ang teknolohiyang ito, gaya ng nabanggit na natin, ay naglalayong tukuyin ang iba't ibang salita at parirala ng sinasalitang wika. Pagkatapos ay iko-convert nito ang mga ito sa isang format na nababasa ng makina. Tinutukoy lamang ng mga pangunahing programa ang isang maliit na bilang ng mga pangunahing parirala, ngunit ang ilang mas advanced na speech recognition software ay nagagawang maunawaan ang lahat ng uri ng natural na pananalita. Ang teknolohiya sa pagkilala sa pagsasalita ay maginhawa sa karamihan ng mga kaso, ngunit kung minsan ay nakakaranas ito ng mga problema kapag ang kalidad ng pag-record ay hindi sapat o kapag may mga ingay sa background na nagpapahirap na maunawaan nang maayos ang nagsasalita. Maaaring magkaroon pa rin ng ilang mga problema kapag ang nagsasalita ay may talagang malakas na accent o isang diyalekto. Ang pagkilala sa pagsasalita ay patuloy na umuunlad, ngunit hindi pa rin ito lubos na perpekto. Hindi lahat ay tungkol sa salita, hindi pa rin kaya ng mga makina ang maraming bagay na kayang gawin ng tao, halimbawa hindi nila naiintindihan ang body language o ang tono ng boses ng isang tao. Gayunpaman, habang mas maraming data ang naiintindihan ng mga advanced na algorithm na ito, ang ilan sa mga hamong ito ay tila bumababa sa kahirapan. Sino ang nakakaalam kung ano ang idudulot ng hinaharap? Mahirap hulaan kung saan hahantong ang speech recognition. Halimbawa, ang Google ay nagkakaroon na ng maraming tagumpay sa pagpapatupad ng speech recognition software sa mga Google Translate engine, at ang makina ay patuloy na natututo at umuunlad. Baka isang araw ay ganap na nilang papalitan ang mga taong tagapagsalin. O baka hindi, ang mga sitwasyon sa pang-araw-araw na pagsasalita ay masyadong kumplikado para sa anumang uri ng makina na hindi nababasa ang lalim ng kaluluwa ng tao.
Kailan gagamitin ang speech recognition?
Sa panahon ngayon halos lahat ay may smartphone o tablet. Ang pagkilala sa pagsasalita ay isang karaniwang tampok sa mga device na iyon. Ginagamit ang mga ito upang gawing aksyon ang pagsasalita ng isang tao. Kung gusto mong tawagan ang iyong lola, sapat na na mag-utos ka ng "tawagan ang Lola" at ang iyong smartphone ay nagda-dial na ng numero nang hindi mo kailangang mag-type sa pamamagitan ng iyong mga listahan ng contact. Ito ay speech recognition. Isa pang magandang halimbawa nito, ay Alexa o Siri. Mayroon din silang feature na ito na naka-hard-wired sa kanilang system. Binibigyan ka rin ng Google ng opsyong maghanap ng anuman sa pamamagitan ng boses, nang hindi nagta-type ng anuman.
Marahil ay interesado ka na ngayon kung paano gumagana ang lahat ng ito. Buweno, para gumana ito, ang mga sensor tulad ng mga mikropono ay kailangang i-built sa software upang ang mga sound wave ng mga binibigkas na salita ay makilala, masuri at ma-convert sa isang digital na format. Ang digital na impormasyon ay kailangang ikumpara sa iba pang impormasyon na nakaimbak sa ilang uri ng mga salita at expression na repository. Kapag may tugma, makikilala ng software ang utos at kumilos nang naaayon.
Ang isa pang bagay na kailangang banggitin sa puntong ito ay ang tinatawag na WER (word error rate). Ito ay isang formula kung saan hinahati mo ang numero ng error sa kabuuang mga salita. Kaya, upang ilagay ito sa mga simpleng termino, marami itong kinalaman sa katumpakan. Ang layunin ay siyempre na magkaroon ng mababang WER, dahil nangangahulugan ito na ang transkripsyon ng pasalitang salita ay mas tumpak.
Ang pagkilala sa pagsasalita ay hinihiling ngayon gaya ng dati. Kung kailangan mo ring i-convert ang binibigkas na salita mula sa sabihin nating isang naka-record na audio file sa text, maaari kang pumunta sa Gglot. Kami ay isang tagapagbigay ng serbisyo ng transkripsyon na nag-aalok ng mga tumpak na transkripsyon para sa isang patas na presyo. Kaya, huwag mag-atubiling makipag-ugnayan sa pamamagitan ng aming user-friendly na website.