តើការទទួលស្គាល់ការនិយាយគឺជាអ្វី?

ការទទួលស្គាល់ការនិយាយ

អ្វីដែលអ្នកត្រូវដឹងអំពីការទទួលស្គាល់ការនិយាយ

នៅពេលដែលយើងកំពុងនិយាយអំពីការទទួលស្គាល់ការនិយាយ ជាធម្មតាយើងមានន័យថាជាកម្មវិធីដែលមានសមត្ថភាពទទួលស្គាល់ពាក្យដែលនិយាយ និងសរសេរវានៅក្នុងកម្មវិធី ដូច្នេះនៅទីបញ្ចប់ អ្នកមានអ្វីគ្រប់យ៉ាងដែលត្រូវបាននិយាយជាទម្រង់សរសេរ។ វាត្រូវបានគេសំដៅជាញឹកញាប់ថាជា "ការនិយាយទៅអត្ថបទ" ។ នៅដើមដំបូងកម្មវិធីនោះមានលទ្ធភាពមានកម្រិតខ្លាំងណាស់ ដូច្នេះអ្នកអាចបំប្លែងបានតែចំនួនឃ្លាដែលមានកំណត់ប៉ុណ្ណោះ។ យូរៗទៅ បច្ចេកវិទ្យានៅពីក្រោយកម្មវិធីសម្គាល់ការនិយាយបានអភិវឌ្ឍច្រើន ហើយឥឡូវនេះវាកាន់តែទំនើបជាងមុន ដូច្នេះវាអាចស្គាល់ភាសាផ្សេងៗគ្នា និងសូម្បីតែការបញ្ចេញសំឡេងខុសៗគ្នា។ ប៉ុន្តែជាការពិតណាស់ វានៅតែមានការងារដែលត្រូវធ្វើក្នុងវិស័យនេះ។

វាក៏សំខាន់ផងដែរក្នុងការកត់សម្គាល់ថាការទទួលស្គាល់ការនិយាយមិនដូចគ្នានឹងការទទួលស្គាល់សំឡេងទេ ទោះបីជាពេលខ្លះមនុស្សប្រើពាក្យទាំងពីរសម្រាប់រឿងដូចគ្នាក៏ដោយ។ ការសម្គាល់សំឡេងត្រូវបានប្រើសម្រាប់កំណត់អត្តសញ្ញាណអ្នកដែលកំពុងនិយាយ និងមិនកត់សម្គាល់នូវអ្វីដែលកំពុងនិយាយនោះទេ។

ប្រវត្តិខ្លីៗនៃការទទួលស្គាល់ការនិយាយ និងបច្ចេកវិទ្យាពាក់ព័ន្ធ

នៅក្នុងអត្ថបទនេះ យើងនឹងពន្យល់យ៉ាងខ្លីអំពីប្រវត្តិ និងបច្ចេកវិទ្យានៅពីក្រោយការកើនឡើងនៃការទទួលស្គាល់ការនិយាយ។

ចាប់តាំងពីពេលព្រឹកព្រលឹមនៃយុគសម័យឌីជីថល មនុស្សមានការជម្រុញឱ្យមានការប្រាស្រ័យទាក់ទងជាមួយម៉ាស៊ីន។ បន្ទាប់ពីប្រភេទកុំព្យូទ័រឌីជីថលដំបូងត្រូវបានបង្កើត អ្នកវិទ្យាសាស្ត្រ និងវិស្វករជាច្រើនបានព្យាយាមក្នុងវិធីផ្សេងៗដើម្បីអនុវត្តការទទួលស្គាល់ការនិយាយនៅក្នុងដំណើរការនេះ។ ឆ្នាំដ៏សំខាន់នៃដំណើរការនេះគឺឆ្នាំ 1962 នៅពេលដែល IBM បានបង្ហាញ Shoebox ដែលជាម៉ាស៊ីនសម្គាល់ការនិយាយជាមូលដ្ឋានដែលអាចធ្វើការគណនាគណិតវិទ្យាសាមញ្ញបាន។ ប្រសិនបើអ្នកប្រើកុំព្យូទ័រប្រូតូនេះនិយាយទៅក្នុងមីក្រូហ្វូន នោះម៉ាស៊ីននេះអាចស្គាល់ពាក្យបញ្ជារហូតដល់ប្រាំមួយដូចជា "បូក" ឬ "ដក" ។ យូរ ៗ ទៅបច្ចេកវិទ្យាដែលនៅពីក្រោយនេះត្រូវបានអភិវឌ្ឍហើយសព្វថ្ងៃនេះវាជារឿងធម្មតាណាស់ក្នុងការប្រាស្រ័យទាក់ទងជាមួយកុំព្យូទ័រដោយសម្លេង។ មានម៉ាស៊ីនសម្គាល់ការនិយាយដ៏ល្បីល្បាញជាច្រើនដូចជា Siri ឬ Alexa ។ វាជារឿងសំខាន់ក្នុងការកត់សម្គាល់ថាឧបករណ៍ដែលដំណើរការដោយសំឡេងទាំងនេះគឺពឹងផ្អែកលើបញ្ញាសិប្បនិម្មិត (AI) និងការរៀនម៉ាស៊ីន។

នៅពេលដែលបញ្ញាសិប្បនិមិត្ត (AI) ត្រូវបានលើកឡើង វាអាចស្តាប់ទៅដូចជាអ្វីមួយពីខ្សែភាពយន្តប្រឌិតបែបវិទ្យាសាស្ត្រ ប៉ុន្តែការពិតគឺថានៅក្នុងសម័យបច្ចុប្បន្ន និងយុគសម័យ AI ដើរតួយ៉ាងសំខាន់នៅក្នុងពិភពលោករបស់យើង។ តាមពិតទៅ AI គឺមានវត្តមាននៅក្នុងជីវិតប្រចាំថ្ងៃរបស់យើងរួចទៅហើយ ដោយសារកម្មវិធី និងកម្មវិធីជាច្រើនបានប្រើប្រាស់វារួចហើយ។ ប៉ុន្តែវាជាការប្រឌិតបែបវិទ្យាសាស្ត្រនៅដើមសតវត្សទី 20 នៅពេលដែលពាក្យនេះបានលេចចេញមក។ នៅចុងឆ្នាំ 1950 គោលគំនិតរបស់ AI កាន់តែមានភាពលេចធ្លោ និងជាចំណាប់អារម្មណ៍របស់អ្នកវិទ្យាសាស្ត្រ និងទស្សនវិទូជាច្រើន។ នៅពេលនោះ គណិតវិទូជនជាតិអង់គ្លេសម្នាក់ដែលមានមហិច្ឆតាខ្លាំងហៅថា Alan Turing បានបង្កើតសំណើមួយដែលម៉ាស៊ីនអាចដោះស្រាយបញ្ហា និងធ្វើការសម្រេចចិត្តដោយខ្លួនឯងដោយផ្អែកលើការបញ្ចូលព័ត៌មានដែលមាន។ បញ្ហាគឺថាកុំព្យូទ័រមិនទាន់មានលទ្ធភាពទន្ទេញទិន្នន័យនោះ ដែលជាជំហានសំខាន់សម្រាប់ការអភិវឌ្ឍន៍បញ្ញាសិប្បនិម្មិត។ អ្វី​ដែល​ពួក​គេ​អាច​ធ្វើ​បាន​នៅ​ពេល​នោះ​គឺ​ការ​ប្រតិបត្តិ​ពាក្យ​បញ្ជា​សាមញ្ញ។

ឈ្មោះសំខាន់មួយទៀតក្នុងការអភិវឌ្ឍន៍ AI គឺ John McCarthy ដែលបានបង្កើតពាក្យដំបូងថា "បញ្ញាសិប្បនិម្មិត" ។ McCarthy បាននិយាយថា AI គឺ "វិទ្យាសាស្ត្រ និងវិស្វកម្មនៃការបង្កើតម៉ាស៊ីនឆ្លាតវៃ"។ និយមន័យនេះបានកើតឡើងនៅក្នុងសន្និសិទសិក្ខាសាលានៅមហាវិទ្យាល័យ Dartmouth ក្នុងឆ្នាំ 1956។ ចាប់ពីពេលនោះមក AI បានចាប់ផ្តើមអភិវឌ្ឍក្នុងល្បឿនដ៏គួរឱ្យភ័យខ្លាច។

សព្វថ្ងៃនេះ បញ្ញាសិប្បនិមិត្តក្នុងទម្រង់ផ្សេងៗគ្នារបស់វាមានវត្តមាននៅគ្រប់ទីកន្លែង។ វាបានកើនឡើងដល់ការអនុម័តដ៏ធំ ដែលភាគច្រើនដោយសារតែការកើនឡើងនៃបរិមាណទិន្នន័យទាំងមូលដែលត្រូវបានផ្លាស់ប្តូរទូទាំងពិភពលោកជារៀងរាល់ថ្ងៃ។ វា​ត្រូវ​បាន​ប្រើ​ក្នុង​ក្បួន​ដោះស្រាយ​កម្រិត​ខ្ពស់ ហើយ​វា​បាន​បង្កើត​ឱ្យ​មាន​ការ​ធ្វើ​ឱ្យ​ប្រសើរ​ឡើង​ក្នុង​ការ​ផ្ទុក និង​ថាមពល​កុំព្យូទ័រ។ AI ត្រូវបានប្រើសម្រាប់គោលបំណងជាច្រើន ឧទាហរណ៍ ការបកប្រែ ការចម្លង ការនិយាយ ការទទួលស្គាល់មុខ និងវត្ថុ ការវិភាគរូបភាពវេជ្ជសាស្ត្រ ដំណើរការភាសាធម្មជាតិ តម្រងបណ្ដាញសង្គមផ្សេងៗជាដើម។ ចាំថាការប្រកួតអុករវាងលោកយាយ Gari Kasparov និង Deep Blue chess AI?

គ្មានចំណងជើង ៧ ១

ការរៀនម៉ាស៊ីនគឺជាកម្មវិធីសំខាន់មួយទៀតនៃបញ្ញាសិប្បនិម្មិត។ សរុបមក វាសំដៅទៅលើប្រព័ន្ធណាមួយដែលមានសមត្ថភាពរៀន និងកែលម្អពីមូលដ្ឋានទិន្នន័យនៃបទពិសោធន៍ផ្ទាល់ខ្លួនរបស់ពួកគេ។ វាដំណើរការតាមរយៈការទទួលស្គាល់គំរូ។ ដើម្បី​ឱ្យ​ប្រព័ន្ធ​ធ្វើ​វា​ត្រូវ​តែ​អាច​ហ្វឹកហាត់​បាន។ ក្បួនដោះស្រាយនៃប្រព័ន្ធទទួលការបញ្ចូលទិន្នន័យយ៉ាងច្រើន ហើយនៅពេលមួយ វាអាចកំណត់អត្តសញ្ញាណគំរូពីទិន្នន័យនោះ។ គោលដៅចុងក្រោយនៃដំណើរការនេះគឺដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រទាំងនេះអាចរៀនដោយឯករាជ្យ ដោយមិនចាំបាច់ត្រូវការអន្តរាគមន៍ ឬជំនួយពីមនុស្សណាមួយឡើយ។

រឿងមួយទៀតដែលមានសារៈសំខាន់ខ្លាំងណាស់ក្នុងការនិយាយរួមជាមួយនឹងការរៀនម៉ាស៊ីនគឺការរៀនស៊ីជម្រៅ។ ឧបករណ៍ដ៏សំខាន់បំផុតមួយនៅក្នុងដំណើរការនៃការសិក្សាស៊ីជម្រៅគឺអ្វីដែលគេហៅថាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។ ពួកវាជាក្បួនដោះស្រាយកម្រិតខ្ពស់ ស្រដៀងទៅនឹងរចនាសម្ព័ន្ធ និងមុខងារនៃខួរក្បាលមនុស្ស។ ទោះជាយ៉ាងណាក៏ដោយ ពួកវាមានលក្ខណៈឋិតិវន្ត និងជានិមិត្តរូប មិនដូចខួរក្បាលជីវសាស្ត្រដែលមានលក្ខណៈប្លាស្ទិក និងមានលក្ខណៈស្រដៀងគ្នាច្រើនទេ។ សរុបមក ការរៀនស៊ីជម្រៅនេះគឺជាលក្ខណៈពិសេសនៃការរៀនម៉ាស៊ីន ដែលផ្អែកលើបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជាចម្បង។ គោលដៅនៃការរៀនសូត្រស៊ីជម្រៅគឺដើម្បីចម្លងដំណើរការសិក្សារបស់មនុស្សយ៉ាងជិតស្និទ្ធ។ បច្ចេកវិទ្យាសិក្សាជ្រៅជ្រះគឺមានប្រយោជន៍ខ្លាំងណាស់ ហើយវាដើរតួនាទីយ៉ាងសំខាន់នៅក្នុងឧបករណ៍ផ្សេងៗដែលគ្រប់គ្រងដោយសំឡេង ដូចជា ថេប្លេត ទូរទស្សន៍ ស្មាតហ្វូន ទូរទឹកកក ជាដើម។ បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតក៏ត្រូវបានគេប្រើជាប្រភេទនៃប្រព័ន្ធចម្រោះដែលមានគោលបំណងទស្សន៍ទាយធាតុ។ ដែលអ្នកប្រើប្រាស់នឹងទិញនៅពេលអនាគត។ បច្ចេកវិជ្ជាសិក្សាជ្រៅជ្រះក៏ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងវិស័យវេជ្ជសាស្ត្រផងដែរ។ វាមានសារៈសំខាន់ខ្លាំងណាស់ចំពោះអ្នកស្រាវជ្រាវជំងឺមហារីក ព្រោះវាអាចជួយរកឃើញកោសិកាមហារីកដោយស្វ័យប្រវត្តិ។

ឥឡូវនេះយើងនឹងត្រលប់ទៅការទទួលស្គាល់ការនិយាយ។ បច្ចេកវិទ្យានេះ ដូចដែលយើងបានលើកឡើងរួចហើយ មានបំណងកំណត់ពាក្យ និងឃ្លាផ្សេងៗនៃភាសានិយាយ។ បន្ទាប់មកវាបំប្លែងពួកវាទៅជាទម្រង់ដែលម៉ាស៊ីនអាចអានបាន។ កម្មវិធីមូលដ្ឋានកំណត់អត្តសញ្ញាណឃ្លាគន្លឹះមួយចំនួនតូចប៉ុណ្ណោះ ប៉ុន្តែកម្មវិធីទទួលស្គាល់ការនិយាយកម្រិតខ្ពស់មួយចំនួនអាចបកស្រាយគ្រប់ប្រភេទនៃការនិយាយធម្មជាតិ។ បច្ចេកវិទ្យាសម្គាល់ការនិយាយគឺមានភាពងាយស្រួលក្នុងករណីភាគច្រើន ប៉ុន្តែពេលខ្លះវាជួបប្រទះបញ្ហានៅពេលដែលគុណភាពនៃការថតសំឡេងមិនល្អគ្រប់គ្រាន់ ឬនៅពេលដែលមានសំលេងរំខានពីផ្ទៃខាងក្រោយដែលធ្វើឱ្យពិបាកក្នុងការយល់វាគ្មិនឱ្យបានត្រឹមត្រូវ។ វាក៏អាចនៅតែជួបប្រទះបញ្ហាមួយចំនួននៅពេលដែលអ្នកនិយាយមានការបញ្ចេញសំឡេងខ្លាំង ឬគ្រាមភាសា។ ការទទួលស្គាល់ការនិយាយកំពុងអភិវឌ្ឍឥតឈប់ឈរ ប៉ុន្តែវានៅតែមិនទាន់ល្អឥតខ្ចោះនៅឡើយ។ មិនមែនអ្វីៗទាំងអស់សុទ្ធតែនិយាយអំពីពាក្យនោះទេ ម៉ាស៊ីននៅតែមិនមានសមត្ថភាពនៃរឿងជាច្រើនដែលមនុស្សអាចធ្វើបាន ឧទាហរណ៍ពួកគេមិនអាចបកស្រាយភាសាកាយវិការ ឬសម្លេងរបស់នរណាម្នាក់បាន។ ទោះយ៉ាងណាក៏ដោយ ដោយសារទិន្នន័យកាន់តែច្រើនត្រូវបានឌិគ្រីបដោយក្បួនដោះស្រាយកម្រិតខ្ពស់ទាំងនេះ បញ្ហាប្រឈមមួយចំនួនហាក់ដូចជាថយចុះនៅក្នុងការលំបាក។ តើអ្នកណាដឹងថាអនាគតនឹងនាំមកនូវអ្វី? វាពិបាកក្នុងការទស្សន៍ទាយកន្លែងដែលការទទួលស្គាល់ការនិយាយនឹងបញ្ចប់។ ជាឧទាហរណ៍ Google កំពុងទទួលបានភាពជោគជ័យជាច្រើនក្នុងការអនុវត្តកម្មវិធីសម្គាល់ការនិយាយនៅក្នុងម៉ាស៊ីន Google Translate ហើយម៉ាស៊ីនកំពុងសិក្សា និងអភិវឌ្ឍឥតឈប់ឈរ។ ប្រហែលជាថ្ងៃណាមួយពួកគេនឹងជំនួសអ្នកបកប្រែរបស់មនុស្សទាំងស្រុង។ ឬប្រហែលជាមិនមែនទេ ស្ថានភាពនៃការនិយាយប្រចាំថ្ងៃគឺស្មុគស្មាញពេកសម្រាប់ប្រភេទម៉ាស៊ីនណាមួយដែលមិនអាចអានជម្រៅនៃព្រលឹងមនុស្សបាន។

ពេលណាត្រូវប្រើការសម្គាល់ការនិយាយ?

សព្វថ្ងៃនេះស្ទើរតែគ្រប់គ្នាមានស្មាតហ្វូន ឬថេប្លេត។ ការទទួលស្គាល់ការនិយាយគឺជាមុខងារទូទៅនៅក្នុងឧបករណ៍ទាំងនោះ។ ពួកវាត្រូវបានប្រើដើម្បីបំប្លែងការនិយាយរបស់មនុស្សទៅជាសកម្មភាព។ ប្រសិនបើអ្នកចង់ទូរស័ព្ទទៅជីដូនរបស់អ្នក វាគ្រប់គ្រាន់ហើយដែលអ្នកបញ្ជា "ហៅទៅយាយ" ហើយស្មាតហ្វូនរបស់អ្នកកំពុងចុចលេខរួចហើយដោយមិនចាំបាច់វាយបញ្ចូលបញ្ជីទំនាក់ទំនងរបស់អ្នក។ នេះគឺជាការទទួលស្គាល់ការនិយាយ។ ឧទាហរណ៍ដ៏ល្អមួយទៀតគឺ Alexa ឬ Siri ។ ពួកគេក៏មានមុខងារនេះដែលមានខ្សែរឹងនៅក្នុងប្រព័ន្ធរបស់ពួកគេផងដែរ។ Google ផ្តល់ឱ្យអ្នកនូវជម្រើសក្នុងការស្វែងរកអ្វីទាំងអស់ដោយសំឡេង ដោយមិនចាំបាច់វាយបញ្ចូលអ្វីទាំងអស់។

គ្មានចំណងជើង ៨ ១

ប្រហែលជាឥឡូវនេះ អ្នកកំពុងចង់ដឹងពីរបៀបដែលដំណើរការទាំងអស់នេះ។ ជាការប្រសើរណាស់ ដើម្បីឱ្យវាដំណើរការ ឧបករណ៍ចាប់សញ្ញាដូចជាមីក្រូហ្វូនត្រូវតែបង្កើតឡើងនៅក្នុងកម្មវិធី ដូច្នេះរលកសំឡេងនៃពាក្យដែលនិយាយត្រូវបានទទួលស្គាល់ វិភាគ និងបំប្លែងទៅជាទម្រង់ឌីជីថល។ បន្ទាប់មក ព័ត៌មានឌីជីថលត្រូវតែប្រៀបធៀបជាមួយព័ត៌មានផ្សេងទៀតដែលត្រូវបានរក្សាទុកក្នុងប្រភេទនៃពាក្យ និងកន្លែងផ្ទុកកន្សោមមួយចំនួន។ នៅពេលមានការផ្គូផ្គង កម្មវិធីអាចស្គាល់ពាក្យបញ្ជា និងធ្វើសកម្មភាពតាម។

រឿងមួយទៀតដែលត្រូវនិយាយនៅចំណុចនេះគឺអ្វីដែលគេហៅថា WER (អត្រាកំហុសពាក្យ) ។ នេះគឺជារូបមន្តដែលអ្នកបែងចែកលេខកំហុសជាមួយនឹងចំនួនសរុបនៃពាក្យ។ ដូច្នេះ​ដើម្បី​ដាក់​វា​ជា​ពាក្យ​សាមញ្ញ វា​មាន​ភាព​ត្រឹមត្រូវ​ច្រើន​ណាស់។ គោលដៅគឺជាការពិតណាស់ដើម្បីឱ្យមាន WER ទាប ពីព្រោះនេះមានន័យថាការចម្លងនៃពាក្យដែលបាននិយាយគឺត្រឹមត្រូវជាង។

ការទទួលស្គាល់ការនិយាយឥឡូវនេះគឺស្ថិតនៅក្នុងតម្រូវការច្រើនដូចពីមុន។ ប្រសិនបើអ្នកក៏ត្រូវបំប្លែងពាក្យដែលនិយាយចេញពី ចូរនិយាយថាឯកសារអូឌីយ៉ូដែលបានថតទុកទៅជាអត្ថបទ អ្នកអាចងាកទៅ Gglot ។ យើងគឺជាអ្នកផ្តល់សេវាប្រតិចារិកដែលផ្តល់ការចម្លងត្រឹមត្រូវសម្រាប់តម្លៃសមរម្យ។ ដូច្នេះសូមកុំស្ទាក់ស្ទើរក្នុងការទំនាក់ទំនងតាមរយៈគេហទំព័រដែលងាយស្រួលប្រើរបស់យើង។