Apa sebenarnya Pengenalan Ucapan itu?
Pengenalan suara
Apa yang perlu Anda ketahui tentang pengenalan suara
Ketika kita berbicara tentang pengenalan suara, biasanya yang kita maksud adalah perangkat lunak yang memiliki kemampuan untuk mengenali kata yang diucapkan dan menuliskannya dalam sebuah program sehingga pada akhirnya Anda memiliki semua yang diucapkan dalam format tertulis. Hal ini juga sering disebut sebagai “ucapan-ke-teks”. Pada awalnya perangkat lunak tersebut memiliki kemungkinan yang sangat terbatas, sehingga Anda hanya dapat mengonversi frasa dalam jumlah terbatas. Seiring berjalannya waktu, teknologi di balik software pengenalan suara telah banyak berkembang dan kini jauh lebih canggih, sehingga dapat mengenali berbagai bahasa bahkan aksen yang berbeda. Namun tentu saja masih ada pekerjaan yang perlu dilakukan di bidang ini.
Penting juga untuk diperhatikan bahwa pengenalan ucapan tidak sama dengan pengenalan suara, meskipun terkadang orang menggunakan kedua istilah tersebut untuk hal yang sama. Pengenalan suara digunakan untuk mengidentifikasi orang yang berbicara dan bukan untuk mencatat apa yang dikatakan.
Sejarah singkat pengenalan suara dan teknologi terkait
Pada artikel ini, kami akan menjelaskan secara singkat sejarah dan teknologi di balik kebangkitan pengenalan suara.
Sejak awal era digital, manusia memiliki keinginan untuk dapat berkomunikasi dengan mesin. Setelah jenis komputer digital pertama ditemukan, banyak ilmuwan dan insinyur telah mencoba berbagai cara untuk menerapkan pengenalan suara ke dalam proses ini. Tahun penting dalam proses ini adalah tahun 1962, ketika IBM meluncurkan Shoebox, mesin pengenalan suara dasar yang mampu melakukan perhitungan matematika sederhana. Jika pengguna komputer proto ini berbicara melalui mikrofon, mesin ini mampu mengenali hingga enam kata kontrol seperti “plus” atau “minus”. Seiring waktu, teknologi di balik ini berkembang dan saat ini interaksi dengan komputer melalui suara sudah menjadi fitur yang sangat umum. Ada banyak mesin pengenalan suara terkenal seperti Siri atau Alexa. Penting untuk dicatat bahwa perangkat yang digerakkan oleh suara ini bergantung pada kecerdasan buatan (AI) dan pembelajaran mesin.
Ketika disebutkan tentang kecerdasan buatan (AI), mungkin terdengar seperti sesuatu yang ada di film fiksi ilmiah, namun kenyataannya di zaman sekarang ini AI memainkan peran besar dalam dunia kita. Faktanya, AI sudah hadir dalam kehidupan kita sehari-hari, karena banyak program dan aplikasi sudah menggunakannya. Namun istilah ini baru muncul dalam fiksi ilmiah pada awal abad ke-20. Pada akhir tahun 1950 konsep AI menjadi lebih menonjol dan menjadi fokus perhatian banyak ilmuwan dan filsuf. Pada saat itu, seorang matematikawan Inggris yang sangat ambisius bernama Alan Turing mengajukan proposisi bahwa mesin dapat memecahkan masalah dan mengambil keputusan sendiri, berdasarkan masukan dari informasi yang tersedia. Masalahnya adalah komputer belum memiliki kemampuan untuk mengingat data tersebut, yang merupakan langkah penting dalam pengembangan kecerdasan buatan. Yang bisa mereka lakukan saat itu hanyalah menjalankan perintah sederhana.
Nama penting lainnya dalam pengembangan AI adalah John McCarthy, yang pertama kali menciptakan istilah “kecerdasan buatan”. McCarthy menyatakan bahwa AI adalah: “ilmu dan rekayasa pembuatan mesin cerdas”. Definisi ini terungkap pada konferensi penting di Dartmouth College pada tahun 1956. Sejak saat itu, AI mulai berkembang dengan sangat pesat.
Saat ini, kecerdasan buatan dalam berbagai bentuknya hadir dimana-mana. Teknologi ini telah berkembang menjadi adopsi massal, terutama karena peningkatan volume keseluruhan data yang dipertukarkan di seluruh dunia setiap harinya. Ini digunakan dalam algoritma tingkat lanjut, dan ini memunculkan peningkatan dalam penyimpanan dan daya komputasi. AI digunakan untuk banyak tujuan, misalnya penerjemahan, transkripsi, ucapan, pengenalan wajah dan objek, analisis gambar medis, pemrosesan bahasa alami, berbagai filter jaringan sosial, dan sebagainya. Ingat pertandingan catur antara grandmaster Gari Kasparov dan AI catur Deep Blue?
Pembelajaran mesin adalah penerapan kecerdasan buatan lainnya yang sangat penting. Singkatnya, ini mengacu pada sistem apa pun yang memiliki kemampuan untuk belajar dan meningkatkan basis data dari pengalaman mereka sendiri. Ini bekerja melalui pengenalan pola. Agar sistem dapat melakukan hal itu, ia perlu dilatih. Algoritme sistem menerima masukan data dalam jumlah besar, dan pada satu titik ia mampu mengidentifikasi pola dari data tersebut. Tujuan akhir dari proses ini adalah untuk memungkinkan sistem komputer belajar secara mandiri, tanpa memerlukan campur tangan atau bantuan manusia.
Hal lain yang sangat penting untuk disebutkan selain pembelajaran mesin adalah pembelajaran mendalam. Salah satu alat terpenting dalam proses pembelajaran mendalam adalah apa yang disebut jaringan saraf tiruan. Itu adalah algoritma canggih, mirip dengan struktur dan fungsi otak manusia. Namun, otak bersifat statis dan simbolis, tidak seperti otak biologis yang bersifat plastis dan lebih berbasis analog. Singkatnya, pembelajaran mendalam ini adalah cara pembelajaran mesin yang sangat terspesialisasi, terutama berdasarkan jaringan saraf tiruan. Tujuan pembelajaran mendalam adalah untuk meniru proses pembelajaran manusia secara dekat. Teknologi pembelajaran mendalam sangat berguna, dan memainkan peran penting dalam berbagai perangkat yang dikendalikan oleh suara – tablet, TV, ponsel pintar, lemari es, dll. Jaringan saraf tiruan juga digunakan sebagai semacam sistem penyaringan yang bertujuan untuk memprediksi item yang akan dibeli pengguna di masa depan. Teknologi deep learning juga sangat banyak digunakan dalam bidang medis. Hal ini sangat penting bagi peneliti kanker, karena membantu mendeteksi sel kanker secara otomatis.
Sekarang kita akan kembali ke pengenalan suara. Teknologi ini, seperti yang telah kami sebutkan, bertujuan untuk mengidentifikasi berbagai kata dan frasa dalam bahasa lisan. Setelah itu, ia mengubahnya menjadi format yang dapat dibaca oleh mesin. Program dasar hanya mengidentifikasi sejumlah kecil frasa kunci, namun beberapa perangkat lunak pengenalan suara yang lebih canggih mampu menguraikan semua jenis ucapan alami. Teknologi pengenalan ucapan berguna dalam banyak kasus, namun terkadang menemui masalah ketika kualitas rekaman tidak cukup baik atau ketika ada suara bising di latar belakang yang menyulitkan untuk memahami pembicara dengan benar. Mungkin juga masih menemui beberapa masalah jika pembicara memiliki aksen atau dialek yang sangat kuat. Pengenalan ucapan terus berkembang, namun masih belum sepenuhnya sempurna. Tidak semuanya tentang kata-kata, mesin masih belum mampu melakukan banyak hal yang bisa dilakukan manusia, misalnya saja belum mampu menguraikan bahasa tubuh atau nada suara seseorang. Namun, seiring dengan semakin banyaknya data yang diuraikan oleh algoritme canggih ini, beberapa tantangan ini tampaknya semakin berkurang tingkat kesulitannya. Siapa yang tahu apa yang akan terjadi di masa depan? Sulit untuk memprediksi di mana pengenalan suara akan berakhir. Misalnya, Google telah mencapai banyak keberhasilan dalam mengimplementasikan perangkat lunak pengenalan suara di mesin Google Terjemahan, dan mesin tersebut terus belajar dan berkembang. Mungkin suatu hari nanti mereka akan sepenuhnya menggantikan penerjemah manusia. Atau mungkin juga tidak, situasi percakapan sehari-hari terlalu rumit untuk mesin apa pun yang tidak mampu membaca kedalaman jiwa manusia.
Kapan menggunakan pengenalan suara?
Saat ini hampir semua orang memiliki smartphone atau tablet. Pengenalan ucapan adalah fitur umum di perangkat tersebut. Mereka digunakan untuk mengubah ucapan seseorang menjadi tindakan. Jika Anda ingin menelepon nenek Anda, cukup perintahkan “panggil Nenek” dan ponsel cerdas Anda sudah menghubungi nomor tersebut tanpa Anda harus mengetikkan daftar kontak Anda. Ini adalah pengenalan suara. Contoh bagus lainnya adalah Alexa atau Siri. Mereka juga memiliki fitur ini yang terprogram dalam sistem mereka. Google juga memberi Anda pilihan untuk mencari apa pun dengan suara, tanpa mengetik apa pun.
Mungkin Anda sekarang penasaran bagaimana cara kerja semua ini. Agar dapat berfungsi, sensor seperti mikrofon harus dibangun ke dalam perangkat lunak sehingga gelombang suara dari kata-kata yang diucapkan dapat dikenali, dianalisis, dan diubah ke format digital. Informasi digital kemudian harus dibandingkan dengan informasi lain yang disimpan dalam semacam penyimpanan kata dan ekspresi. Ketika ada kecocokan, perangkat lunak dapat mengenali perintah tersebut dan bertindak sesuai dengan itu.
Satu hal lagi yang perlu disebutkan pada saat ini adalah apa yang disebut WER (tingkat kesalahan kata). Ini adalah rumus di mana Anda membagi angka kesalahan dengan total kata. Jadi, sederhananya, ini sangat berkaitan dengan akurasi. Tujuannya tentu saja agar WER rendah, karena ini berarti transkripsi kata yang diucapkan lebih akurat.
Pengenalan ucapan sekarang sangat diminati. Jika Anda juga perlu mengonversi kata yang diucapkan dari, misalnya, file rekaman audio menjadi teks, Anda dapat beralih ke Gglot. Kami adalah penyedia layanan transkripsi yang menawarkan transkripsi akurat dengan harga wajar. Jadi, jangan ragu untuk menghubungi kami melalui situs web kami yang ramah pengguna.