Peranan Kecerdasan Buatan dan Pembelajaran Mesin dalam Pengecaman Pertuturan
Peranan Kecerdasan Buatan dan Pembelajaran Mesin dalam Pengecaman Pertuturan
Untuk masa yang lama, orang mahu dapat bercakap dengan mesin. Sejak mereka mula membina komputer, saintis dan jurutera telah cuba untuk memasukkan pengecaman pertuturan ke dalam proses tersebut. Pada tahun 1962, IBM memperkenalkan Shoebox, mesin pengecam pertuturan yang boleh melakukan pengiraan matematik mudah. Peranti inovatif ini mengecam dan membalas 16 perkataan yang dituturkan, termasuk sepuluh digit daripada "0" hingga "9." Apabila nombor dan perkataan perintah seperti "tambah," "tolak" dan "jumlah" dituturkan, Shoebox mengarahkan mesin tambah untuk mengira dan mencetak jawapan kepada masalah aritmetik mudah. Kotak kasut dikendalikan dengan bercakap ke dalam mikrofon, yang menukar bunyi suara menjadi impuls elektrik. Litar pengukur mengelaskan impuls ini mengikut pelbagai jenis bunyi dan mengaktifkan mesin tambah yang dipasang melalui sistem geganti.
Dari masa ke masa, teknologi ini berkembang dan hari ini ramai di antara kita secara rutin berinteraksi dengan komputer melalui suara. Pembantu suara yang paling popular hari ini ialah Alexa oleh Amazon, Siri oleh Apple, Google Assistant dan Cortana oleh Microsoft. Pembantu ini boleh melaksanakan tugas atau perkhidmatan untuk individu berdasarkan arahan atau soalan. Mereka dapat mentafsir pertuturan manusia dan bertindak balas melalui suara yang disintesis. Pengguna boleh bertanya soalan pembantu mereka, mengawal peranti automasi rumah dan main balik media melalui suara serta mengurus tugas asas lain seperti e-mel, senarai tugasan dan kalendar dengan arahan lisan. Semakin kita menggunakan peranti dipacu suara ini, semakin kita menjadi bergantung kepada kecerdasan buatan (AI) dan pembelajaran mesin.
Kecerdasan buatan (AI)
Apabila anda menyebut kecerdasan buatan (AI), ramai orang mungkin berfikir bahawa anda bercakap tentang fiksyen sains, walaupun AI sangat tertanam dalam kehidupan seharian kita. Sebenarnya sudah berpuluh tahun lamanya. Tetapi sebenarnya, ia sememangnya fiksyen sains yang pada awal abad ke -20 membiasakan orang ramai dengan robot seperti manusia pintar buatan. Pada tahun 50-an, konsep AI semakin menjadi tumpuan minat saintis dan ahli falsafah. Pada masa itu ahli matematik muda British Alan Turing mencadangkan bahawa tidak ada sebab mengapa mesin tidak dapat (sama seperti manusia) menyelesaikan masalah dan membuat keputusan berdasarkan maklumat yang ada. Tetapi pada masa itu, komputer tidak mempunyai kemungkinan menghafal yang merupakan kunci untuk kecerdasan. Apa yang mereka lakukan hanyalah melaksanakan arahan. Namun begitu, Alan Turing yang menetapkan matlamat asas dan visi kecerdasan buatan.
Dikenali secara meluas sebagai bapa AI ialah John McCarthy yang mencipta istilah kecerdasan buatan . Baginya AI ialah: "sains dan kejuruteraan membuat mesin pintar". Definisi ini telah dibentangkan pada persidangan di Kolej Dartmouth pada tahun 1956 dan ia menunjukkan permulaan penyelidikan AI. Sejak itu AI berkembang pesat.
Dalam dunia moden kecerdasan buatan ada di mana-mana. Ia telah menjadi lebih popular berkat peningkatan volum data, algoritma lanjutan dan peningkatan dalam kuasa dan storan pengkomputeran. Kebanyakan aplikasi AI disambungkan kepada tugas intelek. Kami menggunakan AI untuk terjemahan, objek, pengecaman muka dan pertuturan, pengesanan topik, analisis imej perubatan, pemprosesan bahasa semula jadi, penapisan rangkaian sosial, permainan catur dll.
Pembelajaran mesin
Pembelajaran mesin ialah aplikasi kecerdasan buatan dan ia merujuk kepada sistem yang mempunyai keupayaan untuk menambah baik daripada pengalaman mereka sendiri. Perkara yang paling penting di sini ialah sistem perlu tahu cara mengenali corak. Untuk dapat melakukannya, sistem perlu dilatih: algoritma menyuap sejumlah besar data supaya pada satu ketika ia dapat mengenal pasti corak. Matlamatnya adalah untuk membolehkan komputer belajar secara automatik tanpa campur tangan atau bantuan manusia.
Apabila bercakap tentang pembelajaran mesin, adalah penting untuk menyebut pembelajaran mendalam. Mari kita mulakan dengan mengatakan bahawa salah satu alat utama yang digunakan dalam pembelajaran mendalam ialah rangkaian saraf tiruan. Itu adalah algoritma yang diilhamkan oleh struktur dan fungsi otak, walaupun ia cenderung statik dan simbolik, dan bukan plastik dan analog seperti otak biologi. Jadi, pembelajaran mendalam ialah satu bentuk pembelajaran mesin khusus berdasarkan rangkaian saraf tiruan yang matlamatnya adalah untuk meniru cara manusia belajar dan ini berfungsi sebagai alat yang hebat untuk mencari corak yang terlalu banyak untuk pengaturcara mengajar mesin. Dalam beberapa tahun kebelakangan ini, terdapat banyak perbincangan mengenai kereta tanpa pemandu dan bagaimana ia boleh mengubah kehidupan kita. Teknologi pembelajaran mendalam adalah kunci di sini, kerana ia mengurangkan kemalangan dengan membolehkan kereta membezakan pejalan kaki daripada pili bomba atau mengenali lampu merah. Teknologi pembelajaran mendalam juga memainkan peranan utama dalam kawalan suara dalam peranti seperti tablet, telefon, peti sejuk, TV dll. Syarikat e-dagang sering menggunakan rangkaian saraf tiruan sebagai sistem penapisan yang cuba meramal dan menunjukkan item yang pengguna ingin beli. Teknologi pembelajaran mendalam juga digunakan dalam bidang perubatan. Ia membantu penyelidik kanser untuk mengesan sel-sel kanser secara automatik dan dengan itu mewakili kemajuan yang luar biasa dalam rawatan kanser.
Pengenalan suara
Teknologi pengecaman pertuturan berfungsi untuk mengenal pasti perkataan dan frasa membentuk bahasa pertuturan dan menukarkannya kepada format yang boleh dibaca untuk mesin. Walaupun sesetengah program hanya boleh mengenal pasti bilangan frasa yang terhad, beberapa program pengecaman pertuturan yang lebih canggih boleh menguraikan pertuturan semula jadi.
Adakah terdapat halangan untuk diatasi?
Walaupun mudah, teknologi pengecaman pertuturan tidak selalu berjalan lancar dan ia masih mempunyai beberapa isu untuk diselesaikan, kerana ia terus dibangunkan. Masalah yang mungkin timbul boleh termasuk yang berikut: kualiti rakaman mungkin tidak mencukupi, mungkin terdapat bunyi di latar belakang yang menyukarkan untuk memahami pembesar suara, juga pembesar suara mungkin mempunyai loghat atau dialek yang sangat kuat (adakah anda pernah dengar dialek Geordie?), dsb.
Pengecaman pertuturan telah berkembang agak banyak, tetapi ia masih jauh dari sempurna. Bukan semua hanya tentang perkataan, mesin masih tidak boleh melakukan banyak perkara yang manusia boleh: mereka tidak boleh membaca bahasa badan atau mengenali nada sarkastik dalam suara seseorang. Orang sering tidak menyebut setiap perkataan dengan cara yang betul dan mereka cenderung untuk memendekkan beberapa perkataan. Contohnya, apabila bercakap dengan pantas dan tidak formal, penutur asli bahasa Inggeris sering menyebut "going to" seperti "gonna". Semua perkara di atas, menyebabkan halangan untuk mesin yang mereka cuba atasi, tetapi masih jauh di hadapan mereka. Adalah penting untuk menyerlahkan bahawa semakin banyak data disuakan kepada algoritma khusus tersebut; cabaran kelihatan semakin berkurangan. Masa depan pengecaman pertuturan automatik nampaknya cerah.
Antara muka pengguna berkuasa suara semakin tersedia dan popular dalam isi rumah. Malah mungkin menjadi platform teknologi seterusnya.
Gglot menawarkan pengecaman pertuturan automatik dalam bentuk perkhidmatan transkripsi automatik - kami menukar pertuturan kepada teks. Perkhidmatan kami mudah digunakan, ia tidak memerlukan kos yang tinggi dan ia akan dilakukan dengan cepat!