Apa Sejatine Speech Recognition?

Pangenalan wicara

Apa sampeyan kudu ngerti babagan pangenalan wicara

Nalika kita ngomong babagan pangenalan wicara, biasane kita tegese piranti lunak sing nduweni kemampuan kanggo ngenali tembung sing diucapake lan nulis ing program supaya ing pungkasan sampeyan duwe kabeh sing wis diucapake ing format sing ditulis. Iki uga asring diarani minangka "speech-to-text". Ing wiwitan piranti lunak kasebut duwe kemungkinan winates banget, supaya sampeyan bisa ngowahi mung sawetara frasa. Kanthi wektu, teknologi ing mburi piranti lunak pangenalan wicara wis berkembang akeh lan saiki luwih canggih, saengga bisa ngerteni basa sing beda lan uga aksen sing beda. Nanging mesthi wae, isih ana karya sing kudu ditindakake ing lapangan iki.

Sampeyan uga penting kanggo mirsani manawa pangenalan wicara ora padha karo pangenalan swara, sanajan kadhangkala wong nggunakake rong istilah kasebut kanggo perkara sing padha. Pangenalan swara digunakake kanggo ngenali wong sing ngomong lan ora kanggo nyathet apa sing diomongake.

Sejarah singkat babagan pangenalan wicara lan teknologi sing gegandhengan

Ing artikel iki, kita bakal nerangake kanthi ringkes babagan sejarah lan teknologi sing ana ing mburi pangenalan wicara.

Wiwit wiwitan jaman digital, wong duwe kepinginan supaya bisa komunikasi karo mesin. Sawise jinis komputer digital pisanan diciptakake, akeh ilmuwan lan insinyur wis nyoba macem-macem cara kanggo ngetrapake pangenalan wicara ing proses iki. A taun wigati saka proses iki 1962, nalika IBM dicethakaké Shoebox, mesin pangenalan wicara dhasar sing bisa nindakake petungan math prasaja. Yen pangguna proto-komputer iki nganggo mikropon, mesin iki bisa ngenali nganti enem tembung kontrol kaya "plus" utawa "minus". Swara wektu, teknologi konco iki dikembangaké lan saiki iku fitur umum banget kanggo sesambungan karo komputer liwat swara. Ana akeh mesin pangenalan wicara sing misuwur kaya Siri utawa Alexa. Penting kanggo dicathet yen piranti sing didhukung swara iki gumantung marang kecerdasan buatan (AI) lan pembelajaran mesin.

Yen disebutake kecerdasan buatan (AI), bisa uga kaya film fiksi ilmiah, nanging sejatine ing jaman saiki AI nduweni peran gedhe ing jagad iki. Nyatane, AI wis ana ing urip saben dina, amarga akeh program lan aplikasi sing wis digunakake. Nanging iku fiksi ilmiah ing wiwitan abad kaping 20, nalika istilah kasebut muncul. Ing pungkasan taun 1950, konsep AI dadi luwih misuwur lan dadi fokus minat akeh ilmuwan lan filsuf. Ing wektu iku, sawijining matématikawan Inggris banget ambisius disebut Alan Turing teka karo proposisi sing mesin bisa ngatasi masalah lan nggawe pancasan dhewe, adhedhasar input saka informasi kasedhiya. Masalahe yaiku komputer durung bisa ngeling-eling data kasebut, sing minangka langkah penting kanggo pangembangan intelijen buatan. Kabeh sing bisa ditindakake nalika iku mung nglakokake prentah sing prasaja.

Jeneng penting liyane ing pangembangan AI yaiku John McCarthy, sing pisanan nggawe istilah "intelijen buatan". McCarthy nyatakake yen AI yaiku: "ilmu lan teknik nggawe mesin cerdas". Dhéfinisi iki ditemokake ing konferensi seminal ing Dartmouth College ing 1956. Wiwit iku AI wiwit berkembang kanthi cepet.

Saiki, intelijen buatan ing macem-macem wujud ana ing endi wae. Wis berkembang dadi adopsi massal, utamane amarga tambah volume data sakabèhé sing diijolke ing saindenging jagad saben dina. Kang digunakake ing kalkulus majeng, lan nimbulake dandan ing panyimpenan lan daya komputerisasi. AI digunakake kanggo akeh tujuan, contone terjemahan, transkripsi, wicara, pangenalan pasuryan lan obyek, analisis gambar medis, pangolahan basa alam, macem-macem saringan jaringan sosial lan liya-liyane. Elinga yen pertandhingan catur antarane grandmaster Gari Kasparov lan Deep Blue catur AI?

Tanpa irah-irahan 7 1

Pembelajaran mesin minangka aplikasi liyane sing penting banget kanggo intelijen buatan. Ing cendhak, iku nuduhake sistem apa wae sing duwe kemampuan kanggo sinau lan nambah saka database pengalaman dhewe. Iki dianggo liwat pangenalan pola. Kanggo nindakake sistem kasebut, kudu bisa dilatih. Algoritma sistem nampa input saka jumlah gedhe saka data, lan ing siji titik iku bisa kanggo ngenali pola saka data sing. Tujuan pungkasan saka proses iki yaiku supaya sistem komputer iki bisa sinau kanthi mandiri, tanpa perlu campur tangan utawa pitulungan manungsa.

Bab liya sing penting banget kanggo disebutake bebarengan karo machine learning yaiku sinau jero. Salah sawijining alat sing paling penting ing proses sinau jero yaiku sing diarani jaringan syaraf tiruan. Iki minangka algoritma canggih, padha karo struktur lan fungsi otak manungsa. Nanging, dheweke statis lan simbolis, ora kaya otak biologis sing plastik lan luwih adhedhasar analog. Singkatnya, sinau jero iki minangka cara sinau mesin sing khusus, utamane adhedhasar jaringan syaraf tiruan. Tujuan saka sinau jero yaiku kanggo niru proses sinau manungsa kanthi rapet. Teknologi sinau jero banget migunani, lan nduweni peran penting ing macem-macem piranti sing dikontrol dening swara - tablet, TV, smartphone, kulkas lan liya-liyane. sing pangguna bakal tuku ing mangsa ngarep. Teknologi sinau jero uga akeh digunakake ing bidang medis. Penting banget kanggo peneliti kanker, amarga mbantu ndeteksi sel kanker kanthi otomatis.

Saiki kita bakal bali menyang pangenalan wicara. Teknologi iki, kaya sing wis kasebut, duwe tujuan kanggo ngenali macem-macem tembung lan frasa saka basa sing diucapake. Sawisé iku ngowahi mau menyang format sing mesin bisa maca. Program dhasar mung ngenali sawetara frase kunci, nanging sawetara piranti lunak pangenalan wicara sing luwih maju bisa nerjemahake kabeh jinis wicara alami. Teknologi pangenalan wicara trep ing umume kasus, nanging kadhangkala nemoni masalah nalika kualitas rekaman ora cukup apik utawa nalika ana swara latar mburi sing nggawe angel mangertos speaker kanthi bener. Bisa uga isih nemoni sawetara masalah nalika penutur duwe logat utawa dialek sing kuwat banget. Pangenalan wicara terus berkembang, nanging isih durung sampurna. Ora kabeh babagan tembung, mesin isih durung bisa nindakake akeh perkara sing bisa ditindakake dening manungsa, contone ora bisa ngerteni basa awak utawa nada swarane wong. Nanging, amarga luwih akeh data sing dideskripsikake dening algoritma canggih iki, sawetara tantangan kasebut katon angel. Sapa sing ngerti apa sing bakal ditindakake ing mangsa ngarep? Iku angel kanggo prédhiksi ngendi pangenalan wicara bakal mungkasi. Contone, Google wis sukses banget kanggo ngetrapake piranti lunak pangenalan ucapan ing mesin Google Translate, lan mesin kasebut terus sinau lan berkembang. Mungkin ing sawijining dina dheweke bakal ngganti penerjemah manungsa kanthi lengkap. Utawa bisa uga ora, kahanan wicara saben dina rumit banget kanggo mesin apa wae sing ora bisa maca jerone jiwa manungsa.

Nalika nggunakake pangenalan wicara?

Saiki meh kabeh wong duwe smartphone utawa tablet. Pangenalan ucapan minangka fitur umum ing piranti kasebut. Iki digunakake kanggo ngowahi ucapan wong dadi tumindak. Yen sampeyan pengin nelpon mbah putri, cukup sampeyan prentah "telpon Mbah" lan smartphone sampeyan wis nelpon nomer kasebut tanpa kudu ngetik dhaptar kontak. Iki pangenalan wicara. Conto liyane sing apik, yaiku Alexa utawa Siri. Padha uga duwe fitur iki hard-kabel ing sistem. Google uga menehi pilihan kanggo nggoleki apa wae kanthi swara, tanpa ngetik apa wae.

Tanpa irah-irahan 8 1

Mungkin sampeyan saiki kepengin weruh carane kabeh iki bisa digunakake. Dadi, supaya bisa digunakake, sensor kaya mikropon kudu dibangun ing piranti lunak supaya gelombang swara saka tembung sing diucapake dikenali, dianalisis lan diowahi dadi format digital. Informasi digital banjur kudu dibandhingake karo informasi liyane sing disimpen ing sawetara jinis repositori tembung lan ekspresi. Nalika ana pertandhingan piranti lunak bisa ngenali printah lan tumindak miturut.

Siji bab liyane sing kudu disebutake ing titik iki yaiku sing diarani WER (tingkat kesalahan tembung). Iki minangka rumus sing dibagi nomer kesalahan karo total tembung. Dadi, kanggo nerangake kanthi gampang, ana hubungane karo akurasi. Ancasipun tamtu gadhah WER ingkang andhap, amargi menika ateges transkripsi tembung ingkang dipunucapaken langkung akurat.

Pangenalan wicara saiki dikarepake kaya biasane. Yen sampeyan uga kudu ngowahi tembung sing diucapake saka file audio sing direkam dadi teks, sampeyan bisa nguripake menyang Gglot. Kita minangka panyedhiya layanan transkripsi sing nawakake transkripsi sing akurat kanthi rega sing cocog. Dadi, aja ragu-ragu hubungi liwat situs web sing ramah pangguna.