Apakah sebenarnya Pengecaman Pertuturan?
Pengenalan suara
Perkara yang anda perlu tahu tentang pengecaman pertuturan
Apabila kita bercakap tentang pengecaman pertuturan, biasanya kita maksudkan perisian yang mempunyai keupayaan untuk mengecam perkataan yang dituturkan dan menulisnya dalam program jadi pada akhirnya anda mempunyai semua yang telah diucapkan dalam format bertulis. Ia juga sering dirujuk sebagai "ucapan-ke-teks". Pada mulanya perisian itu mempunyai kemungkinan yang sangat terhad, supaya anda boleh menukar hanya bilangan frasa yang terhad. Dari masa ke masa, teknologi di sebalik perisian pengecaman pertuturan telah banyak berkembang dan ia kini jauh lebih canggih, supaya ia dapat mengenali bahasa yang berbeza dan juga aksen yang berbeza. Tetapi sudah tentu, masih ada kerja yang perlu dilakukan dalam bidang ini.
Ia juga penting untuk diperhatikan bahawa pengecaman pertuturan tidak sama dengan pengecaman suara, walaupun kadangkala orang menggunakan dua istilah untuk perkara yang sama. Pengecaman suara digunakan untuk mengenal pasti orang yang bercakap dan bukan untuk mencatat apa yang diperkatakan.
Sejarah ringkas pengecaman pertuturan dan teknologi berkaitan
Dalam artikel ini, kami akan menerangkan secara ringkas sejarah dan teknologi di sebalik kebangkitan pengecaman pertuturan.
Sejak awal era digital, orang ramai mempunyai keinginan untuk entah bagaimana boleh berkomunikasi dengan mesin. Selepas jenis komputer digital pertama dicipta, ramai saintis dan jurutera telah mencuba pelbagai cara untuk melaksanakan pengecaman pertuturan ke dalam proses ini. Tahun penting dalam proses ini ialah 1962, apabila IBM mendedahkan Shoebox, mesin pengecaman pertuturan asas yang mampu melakukan pengiraan matematik mudah. Jika pengguna proto-komputer ini bercakap ke dalam mikrofon, mesin ini dapat mengecam sehingga enam perkataan kawalan seperti "tambah" atau "tolak". Dari masa ke masa, teknologi di sebalik ini berkembang dan hari ini ia adalah ciri yang sangat biasa untuk berinteraksi dengan komputer melalui suara. Terdapat banyak enjin pengecaman pertuturan yang terkenal seperti Siri atau Alexa. Adalah penting untuk ambil perhatian bahawa peranti dipacu suara ini bergantung pada kecerdasan buatan (AI) dan pembelajaran mesin.
Apabila kecerdasan buatan (AI) disebut, ia mungkin terdengar seperti sesuatu daripada filem fiksyen sains, tetapi sebenarnya pada zaman sekarang AI memainkan peranan yang besar dalam dunia kita. Malah, AI sudah pun wujud dalam kehidupan seharian kita, memandangkan banyak program dan aplikasi sudah menggunakannya. Tetapi ia adalah fiksyen sains pada awal abad ke-20, apabila istilah itu muncul. Pada akhir 1950 konsep AI menjadi lebih menonjol dan menjadi tumpuan minat ramai saintis dan ahli falsafah. Pada masa itu, seorang ahli matematik British yang sangat bercita-cita tinggi bernama Alan Turing telah mengemukakan cadangan bahawa mesin boleh menyelesaikan masalah dan membuat keputusan sendiri, berdasarkan input maklumat yang ada. Masalahnya ialah komputer belum mempunyai kemungkinan untuk menghafal data itu, yang merupakan langkah penting untuk pembangunan kecerdasan buatan. Apa yang mereka boleh lakukan ketika itu ialah melaksanakan arahan mudah.
Satu lagi nama penting dalam pembangunan AI ialah John McCarthy, yang pertama kali mencipta istilah "kecerdasan buatan". McCarthy menyatakan bahawa AI ialah: "sains dan kejuruteraan membuat mesin pintar". Takrifan ini didedahkan pada persidangan seminal di Kolej Dartmouth pada tahun 1956. Sejak itu AI mula berkembang dengan pantas.
Hari ini, kecerdasan buatan dalam pelbagai bentuk terdapat di mana-mana. Ia telah berkembang kepada penerimaan besar-besaran, terutamanya disebabkan peningkatan dalam jumlah keseluruhan data yang ditukar di seluruh dunia setiap hari. Ia digunakan dalam algoritma lanjutan, dan ia menimbulkan peningkatan dalam storan dan kuasa pengkomputeran. AI digunakan untuk pelbagai tujuan, contohnya terjemahan, transkripsi, pertuturan, pengecaman muka dan objek, analisis imej perubatan, pemprosesan bahasa semula jadi, pelbagai penapis rangkaian sosial dan sebagainya. Ingat perlawanan catur antara grandmaster Gari Kasparov dan Deep Blue catur AI?
Pembelajaran mesin ialah satu lagi aplikasi kecerdasan buatan yang sangat penting. Ringkasnya, ia merujuk kepada mana-mana sistem yang mempunyai keupayaan untuk belajar dan menambah baik daripada pangkalan data pengalaman mereka sendiri. Ini berfungsi melalui pengecaman corak. Untuk sistem melakukannya, ia perlu dilatih. Algoritma sistem menerima input sejumlah besar data, dan pada satu ketika ia dapat mengenal pasti corak daripada data tersebut. Matlamat akhir proses ini adalah untuk membolehkan sistem komputer ini belajar secara bebas, tanpa memerlukan sebarang campur tangan atau bantuan manusia.
Satu lagi perkara yang sangat penting untuk disebutkan bersama pembelajaran mesin ialah pembelajaran mendalam. Salah satu alat yang paling penting dalam proses pembelajaran mendalam ialah rangkaian neural buatan yang dipanggil. Ia adalah algoritma lanjutan, serupa dengan struktur dan fungsi otak manusia. Walau bagaimanapun, ia adalah statik dan simbolik, tidak seperti otak biologi yang plastik dan lebih berasaskan analog. Ringkasnya, pembelajaran mendalam ini ialah cara pembelajaran mesin yang sangat khusus, terutamanya berdasarkan rangkaian saraf tiruan. Matlamat pembelajaran mendalam adalah untuk meniru rapat proses pembelajaran manusia. Teknologi pembelajaran mendalam sangat berguna, dan ia memainkan peranan penting dalam pelbagai peranti yang dikawal oleh suara - tablet, TV, telefon pintar, peti sejuk dll. Rangkaian saraf tiruan juga digunakan sebagai sejenis sistem penapisan yang bertujuan untuk meramalkan item yang akan dibeli oleh pengguna pada masa hadapan. Teknologi pembelajaran mendalam juga digunakan secara meluas dalam bidang perubatan. Ia sangat penting kepada penyelidik kanser, kerana ia membantu mengesan sel kanser secara automatik.
Sekarang kita akan kembali kepada pengecaman pertuturan. Teknologi ini, seperti yang telah kami nyatakan, bertujuan untuk mengenal pasti pelbagai perkataan dan frasa bahasa pertuturan. Selepas itu ia menukarnya ke dalam format yang boleh dibaca oleh mesin. Program asas hanya mengenal pasti sebilangan kecil frasa utama, tetapi beberapa perisian pengecaman pertuturan yang lebih maju mampu mentafsir semua jenis pertuturan semula jadi. Teknologi pengecaman pertuturan adalah mudah dalam kebanyakan kes, tetapi kadangkala ia menghadapi masalah apabila kualiti rakaman tidak cukup baik atau apabila terdapat bunyi latar belakang yang menyukarkan untuk memahami pembesar suara dengan betul. Ia juga mungkin masih menghadapi beberapa masalah apabila pembesar suara mempunyai loghat atau dialek yang sangat kuat. Pengecaman pertuturan sentiasa berkembang, tetapi ia masih tidak begitu sempurna. Bukan semuanya tentang kata-kata, mesin masih tidak mampu melakukan banyak perkara yang manusia boleh lakukan, contohnya mereka tidak mampu mentafsir bahasa badan atau nada suara seseorang. Walau bagaimanapun, apabila lebih banyak data ditafsirkan oleh algoritma lanjutan ini, beberapa cabaran ini nampaknya berkurangan dalam kesukaran. Siapa tahu apa yang akan datang pada masa hadapan? Sukar untuk meramalkan di mana pengecaman pertuturan akan berakhir. Sebagai contoh, Google sudahpun mencapai banyak kejayaan dalam melaksanakan perisian pengecaman pertuturan dalam enjin Terjemahan Google, dan mesin itu sentiasa belajar dan berkembang. Mungkin suatu hari nanti mereka akan menggantikan penterjemah manusia sepenuhnya. Atau mungkin tidak, situasi pertuturan seharian terlalu kompleks untuk sebarang jenis mesin yang tidak dapat membaca kedalaman jiwa manusia.
Bila hendak menggunakan pengecaman pertuturan?
Kini hampir semua orang mempunyai telefon pintar atau tablet. Pengecaman pertuturan ialah ciri biasa dalam peranti tersebut. Ia digunakan untuk menukar ucapan seseorang kepada tindakan. Jika anda ingin menghubungi nenek anda, cukuplah anda memerintahkan "panggil Nenek" dan telefon pintar anda sudah mendail nombor tersebut tanpa anda perlu menaip melalui senarai kenalan anda. Ini adalah pengecaman pertuturan. Satu lagi contoh yang baik, ialah Alexa atau Siri. Mereka juga mempunyai ciri ini berwayar keras dalam sistem mereka. Google juga memberi anda pilihan untuk mencari apa-apa melalui suara, tanpa menaip apa-apa.
Mungkin anda kini ingin tahu bagaimana semua ini berfungsi. Nah, untuk berfungsi, penderia seperti mikrofon perlu dibina ke dalam perisian supaya gelombang bunyi perkataan yang dituturkan dikenali, dianalisis dan ditukar kepada format digital. Maklumat digital kemudiannya perlu dibandingkan dengan maklumat lain yang disimpan dalam beberapa jenis repositori perkataan dan ungkapan. Apabila terdapat padanan perisian boleh mengenali arahan dan bertindak sewajarnya.
Satu lagi perkara yang perlu disebutkan pada ketika ini ialah apa yang dipanggil WER (kadar ralat perkataan). Ini ialah formula di mana anda membahagikan nombor ralat dengan jumlah perkataan. Jadi, secara ringkas, ia mempunyai banyak kaitan dengan ketepatan. Matlamatnya sudah tentu untuk mempunyai WER yang rendah, kerana ini bermakna transkripsi perkataan yang dituturkan adalah lebih tepat.
Pengecaman pertuturan kini mendapat permintaan seperti biasa. Jika anda juga perlu menukar perkataan yang dituturkan daripada katakanlah fail audio yang dirakam kepada teks, anda boleh beralih kepada Gglot. Kami ialah penyedia perkhidmatan transkripsi yang menawarkan transkripsi yang tepat untuk harga yang berpatutan. Jadi, jangan teragak-agak untuk berhubung melalui laman web mesra pengguna kami.