Peran Kecerdasan Buatan dan Pembelajaran Mesin dalam Pengenalan Ucapan
Peran Kecerdasan Buatan dan Pembelajaran Mesin dalam Pengenalan Ucapan
Sejak lama, manusia ingin dapat berkomunikasi dengan mesin. Sejak mereka mulai membuat komputer, ilmuwan dan insinyur telah mencoba memasukkan pengenalan suara ke dalam prosesnya. Pada tahun 1962, IBM memperkenalkan Shoebox, mesin pengenalan suara yang dapat melakukan perhitungan matematika sederhana. Perangkat inovatif ini mengenali dan merespons 16 kata yang diucapkan, termasuk sepuluh digit dari “0” hingga “9.” Saat angka dan kata perintah seperti “plus”, “minus”, dan “total” diucapkan, Shoebox menginstruksikan mesin penjumlah untuk menghitung dan mencetak jawaban soal aritmatika sederhana. Kotak Sepatu dioperasikan dengan berbicara melalui mikrofon, yang mengubah suara menjadi impuls listrik. Sirkuit pengukur mengklasifikasikan impuls-impuls ini berdasarkan berbagai jenis suara dan mengaktifkan mesin penambah yang terpasang melalui sistem relai.
Seiring berjalannya waktu, teknologi ini berkembang dan saat ini banyak dari kita yang secara rutin berinteraksi dengan komputer melalui suara. Asisten suara terpopuler saat ini adalah Alexa dari Amazon, Siri dari Apple, Google Assistant, dan Cortana dari Microsoft. Asisten ini dapat melakukan tugas atau layanan untuk individu berdasarkan perintah atau pertanyaan. Mereka mampu menafsirkan ucapan manusia dan merespons melalui suara yang disintesis. Pengguna dapat mengajukan pertanyaan kepada asistennya, mengontrol perangkat otomatisasi rumah dan pemutaran media melalui suara, dan mengelola tugas dasar lainnya seperti email, daftar tugas, dan kalender dengan perintah verbal. Semakin sering kita menggunakan perangkat berbasis suara ini, semakin kita jadinya bergantung pada kecerdasan buatan (AI) dan pembelajaran mesin.
Kecerdasan buatan (AI)
Ketika Anda mengatakan kecerdasan buatan (AI), banyak orang mungkin berpikir bahwa Anda sedang berbicara tentang fiksi ilmiah, padahal AI sudah sangat melekat dalam kehidupan kita sehari-hari. Faktanya, hal itu sudah terjadi selama puluhan tahun. Namun kenyataannya, fiksi ilmiahlah yang pada awal abad ke -20 memperkenalkan masyarakat pada robot dengan kecerdasan buatan yang menyerupai manusia. Pada tahun 50an, konsep AI semakin menjadi fokus perhatian para ilmuwan dan filsuf. Pada saat itu, ahli matematika muda asal Inggris, Alan Turing, menyatakan bahwa tidak ada alasan mengapa mesin tidak dapat (seperti halnya manusia) memecahkan masalah dan mengambil keputusan berdasarkan informasi yang tersedia. Namun pada saat itu, komputer tidak memiliki kemampuan untuk menghafal yang merupakan kunci kecerdasan. Yang mereka lakukan hanyalah menjalankan perintah. Namun tetap saja, Alan Turing-lah yang menetapkan tujuan dan visi mendasar dari kecerdasan buatan.
Dikenal luas sebagai bapak AI adalah John McCarthy yang menciptakan istilah kecerdasan buatan . Baginya AI adalah: “ilmu dan teknik pembuatan mesin cerdas”. Definisi ini dipresentasikan pada konferensi di Dartmouth College pada tahun 1956 dan ini menandai dimulainya penelitian AI. Sejak saat itu AI berkembang pesat.
Di dunia modern, kecerdasan buatan ada dimana-mana. Ini menjadi lebih populer berkat peningkatan volume data, algoritma canggih, dan peningkatan daya komputasi dan penyimpanan. Sebagian besar aplikasi AI terhubung dengan tugas-tugas intelektual. Kami menggunakan AI untuk penerjemahan, objek, pengenalan wajah dan ucapan, deteksi topik, analisis gambar medis, pemrosesan bahasa alami, pemfilteran jaringan sosial, bermain catur, dll.
Pembelajaran mesin
Pembelajaran mesin adalah penerapan kecerdasan buatan dan mengacu pada sistem yang memiliki kemampuan untuk meningkat berdasarkan pengalamannya sendiri. Hal terpenting di sini adalah sistem perlu mengetahui cara mengenali pola. Untuk dapat melakukan hal tersebut, sistem perlu dilatih: algoritme memasukkan data dalam jumlah besar sehingga pada titik tertentu dapat mengidentifikasi pola. Tujuannya adalah memungkinkan komputer belajar secara otomatis tanpa campur tangan atau bantuan manusia.
Saat berbicara tentang pembelajaran mesin, penting untuk menyebutkan pembelajaran mendalam. Mari kita mulai dengan mengatakan bahwa salah satu alat utama yang digunakan dalam pembelajaran mendalam adalah jaringan saraf tiruan. Itu adalah algoritma yang terinspirasi dari struktur dan fungsi otak, meski cenderung statis dan simbolik, bukan plastis dan analog seperti otak biologis. Jadi, pembelajaran mendalam adalah bentuk khusus pembelajaran mesin berdasarkan jaringan saraf tiruan yang tujuannya adalah meniru cara manusia belajar dan ini berfungsi sebagai alat yang hebat untuk menemukan pola yang terlalu banyak bagi seorang programmer untuk mengajarkan mesin tersebut. Dalam beberapa tahun terakhir, banyak perbincangan mengenai mobil tanpa pengemudi dan bagaimana mobil tersebut dapat mengubah hidup kita. Teknologi pembelajaran mendalam adalah kuncinya karena dapat mengurangi kecelakaan dengan memungkinkan mobil membedakan pejalan kaki dari hidran kebakaran atau mengenali lampu merah. Teknologi pembelajaran mendalam juga memainkan peran utama dalam kontrol suara di perangkat seperti tablet, ponsel, lemari es, TV, dll. Perusahaan e-niaga sering kali menggunakan jaringan saraf tiruan sebagai sistem penyaringan yang mencoba memprediksi dan menampilkan item yang diinginkan pengguna. membeli. Teknologi pembelajaran mendalam juga digunakan dalam bidang medis. Ini membantu peneliti kanker untuk secara otomatis mendeteksi sel kanker dan dengan demikian mewakili kemajuan luar biasa dalam pengobatan kanker.
Pengenalan suara
Teknologi pengenalan ucapan berfungsi untuk mengidentifikasi kata dan frasa dari bahasa lisan dan mengubahnya menjadi format yang dapat dibaca oleh mesin. Meskipun beberapa program hanya dapat mengidentifikasi sejumlah frasa, beberapa program pengenalan ucapan yang lebih canggih dapat menguraikan ucapan alami.
Apakah ada kendala yang harus diatasi?
Meskipun nyaman, teknologi pengenalan suara tidak selalu berjalan mulus dan masih ada beberapa masalah yang harus diselesaikan, seiring dengan perkembangannya yang terus menerus. Permasalahan yang mungkin muncul antara lain adalah: kualitas rekaman mungkin kurang memadai, mungkin ada suara bising di latar belakang yang menyulitkan pembicara untuk dipahami, dan pembicara mungkin memiliki aksen atau dialek yang sangat kuat (bukankah Anda pernah mendengar dialek Geordie?), dll.
Pengenalan ucapan sudah cukup berkembang, namun masih jauh dari kata sempurna. Tidak semuanya hanya soal kata-kata, mesin masih belum bisa melakukan banyak hal yang bisa dilakukan manusia: tidak bisa membaca bahasa tubuh atau mengenali nada sarkastik dalam suara seseorang. Orang sering kali tidak mengucapkan setiap kata dengan benar dan mereka cenderung mempersingkat beberapa kata. Misalnya, ketika berbicara dengan cepat dan informal, penutur asli bahasa Inggris sering mengucapkan “going to” seperti “gonna.” Semua hal di atas menimbulkan hambatan bagi mesin yang ingin mereka atasi, namun jalan di depannya masih panjang. Penting untuk digarisbawahi bahwa semakin banyak data yang dimasukkan ke algoritma spesifik tersebut; tantangannya tampaknya berkurang. Masa depan pengenalan ucapan otomatis tampaknya cerah.
Antarmuka pengguna yang didukung suara kini semakin tersedia dan populer di rumah tangga. Bahkan mungkin menjadi platform teknologi berikutnya.
Gglot menawarkan pengenalan ucapan otomatis dalam bentuk layanan transkripsi otomatis – kami mengonversi ucapan menjadi teks. Layanan kami mudah digunakan, tidak memerlukan biaya banyak dan dapat diselesaikan dengan cepat!