Speech Recognition ဆိုတာ အတိအကျ ဘာလဲ။
မိန့်ခွန်းအသိအမှတ်ပြုမှု
စကားပြောမှတ်မိခြင်းအကြောင်း သင်သိလိုသည်များ
စကားပြောမှတ်မိခြင်းအကြောင်းပြောနေချိန်တွင်၊ အများအားဖြင့် ကျွန်ုပ်တို့သည် ပြောဆိုသောစကားလုံးကိုမှတ်မိနိုင်ပြီး ၎င်းကိုပရိုဂရမ်တစ်ခုတွင်ချရေးနိုင်သည့်စွမ်းရည်ရှိသောဆော့ဖ်ဝဲကိုဆိုလိုသည်၊ ထို့ကြောင့်အဆုံးတွင်သင်၌ပြောသမျှအားလုံးကိုစာဖြင့်ရေးသားထားသောပုံစံဖြင့်ရရှိသည်။ ၎င်းကို "စကားပြောမှစာသား" ဟုလည်းမကြာခဏရည်ညွှန်းသည်။ အစပိုင်းတွင် အဆိုပါဆော့ဖ်ဝဲလ်တွင် ဖြစ်နိုင်ခြေအလွန်အကန့်အသတ်ရှိသောကြောင့် သင်သည် အကန့်အသတ်ရှိသော စကားစုများကိုသာ ပြောင်းလဲနိုင်သည်။ အချိန်ကြာလာသည်နှင့်အမျှ၊ စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲ၏နောက်ကွယ်မှနည်းပညာသည် များစွာတိုးတက်လာခဲ့ပြီး ယခုအခါတွင် မတူညီသောဘာသာစကားများနှင့် မတူညီသောလေယူလေသိမ်းများကိုပင် မှတ်မိနိုင်စေရန်အတွက် ၎င်းသည် ပိုမိုခေတ်မီလာပါသည်။ ဒါပေမယ့် သေချာတာကတော့ ဒီနယ်ပယ်မှာ လုပ်ရမယ့် အလုပ်တွေ ရှိနေပါသေးတယ်။
တစ်ခါတစ်ရံတွင် လူတို့သည် ဝေါဟာရနှစ်ခုကို တူညီသည့်အရာအတွက် အသုံးပြုကြသော်လည်း အသံအသိအမှတ်ပြုခြင်းနှင့် မတူကြောင်းကိုလည်း သတိပြုမိရန် အရေးကြီးပါသည်။ စကားပြောနေသူကို ခွဲခြားသိမြင်နိုင်စေရန်နှင့် ပြောနေသည်ကို မှတ်သားထားရန် အသံအသိအမှတ်ပြုခြင်းကို အသုံးပြုသည်။
စကားပြောမှတ်သားမှုနှင့် ဆက်စပ်နည်းပညာများ၏ သမိုင်းအတို
ဤဆောင်းပါးတွင်၊ စကားပြောအသိအမှတ်ပြုမှု ထွန်းကားလာမှုနောက်ကွယ်ရှိ သမိုင်းနှင့်နည်းပညာကို အတိုချုပ်ရှင်းပြပါမည်။
ဒစ်ဂျစ်တယ်ခေတ်၏ အရုဏ်ဦးကတည်းက လူများသည် စက်များနှင့် တစ်နည်းတစ်ဖုံ ဆက်သွယ်ပြောဆိုနိုင်စေရန် တွန်းအားပေးခဲ့ကြသည်။ ပထမဆုံး ဒစ်ဂျစ်တယ်ကွန်ပြူတာအမျိုးအစားကို တီထွင်ပြီးနောက်၊ များစွာသောသိပ္ပံပညာရှင်နှင့် အင်ဂျင်နီယာများသည် ဤလုပ်ငန်းစဉ်တွင် စကားပြောအသိအမှတ်ပြုခြင်းကို တစ်နည်းနည်းနှင့်အကောင်အထည်ဖော်ရန် နည်းလမ်းအမျိုးမျိုးဖြင့် ကြိုးစားခဲ့ကြသည်။ IBM သည် ရိုးရှင်းသော သင်္ချာတွက်ချက်မှုများကို လုပ်ဆောင်နိုင်သည့် အခြေခံ စကားပြောမှတ်သားမှုစက် Shoebox ကို ထုတ်ဖော်ပြသသောအခါ ဤလုပ်ငန်းစဉ်၏ အရေးကြီးသောနှစ်သည် 1962 ဖြစ်သည်။ ဤပရိုတိုကွန်ပြူတာအသုံးပြုသူသည် မိုက်ခရိုဖုန်းသို့ စကားပြောဆိုပါက၊ ဤစက်သည် “အပေါင်း” သို့မဟုတ် “နုတ်” ကဲ့သို့သော ထိန်းချုပ်စကားလုံးခြောက်လုံးအထိ မှတ်မိနိုင်သည်။ အချိန်ကြာလာသည်နှင့်အမျှ၊ ဤတီထွင်မှုနောက်ကွယ်မှနည်းပညာသည် ယနေ့ခေတ်တွင် ကွန်ပျူတာများနှင့် အသံဖြင့် အပြန်အလှန်ဆက်သွယ်ရန် အလွန်အသုံးများသောအင်္ဂါရပ်ဖြစ်သည်။ Siri သို့မဟုတ် Alexa ကဲ့သို့သော ကျော်ကြားသော စကားပြောမှတ်သားမှုအင်ဂျင်များစွာ ရှိပါသည်။ အဆိုပါ အသံဖြင့်မောင်းနှင်သည့် စက်များသည် ဉာဏ်ရည်တု (AI) နှင့် စက်သင်ယူမှုတို့အပေါ် မူတည်နေကြောင်း သတိပြုရန် အရေးကြီးပါသည်။
Artificial Intelligence (AI) ကိုဖော်ပြသောအခါ၊ ၎င်းသည် သိပ္ပံစိတ်ကူးယဉ်ရုပ်ရှင်မှ တစ်ခုခုဖြစ်နိုင်သည်ဟု ထင်ရသော်လည်း အမှန်တရားမှာ ယနေ့ခေတ်နှင့် ခေတ်ကြီးတွင် AI သည် ကျွန်ုပ်တို့ကမ္ဘာကြီးတွင် ကြီးမားသောအခန်းကဏ္ဍမှ ပါဝင်နေပါသည်။ တကယ်တော့ AI ဟာ ပရိုဂရမ်နဲ့ အက်ပ်များစွာကို အသုံးပြုနေပြီဖြစ်လို့ ကျွန်ုပ်တို့ရဲ့နေ့စဉ်ဘ၀မှာ အလွန်ရှိနေပါပြီ။ သို့သော် ၎င်းသည် 20 ရာစုအစတွင် သိပ္ပံစိတ်ကူးယဉ်ဟူသော ဝေါဟာရ ပေါ်ပေါက်လာခဲ့သည်။ 1950 နှောင်းပိုင်းတွင် AI ၏ အယူအဆများသည် ပိုမိုထင်ရှားလာပြီး သိပ္ပံပညာရှင်များနှင့် ဒဿနပညာရှင်များစွာ၏ စိတ်ဝင်စားမှုကို ခံရသည်။ ထိုအချိန်တွင်၊ Alan Turing ဟုခေါ်သော အလွန်ရည်မှန်းချက်ကြီးသော ဗြိတိန်သင်္ချာပညာရှင်တစ်ဦးသည် ရရှိနိုင်သော အချက်အလက်များအပေါ် အခြေခံ၍ စက်များသည် ပြဿနာများကို ဖြေရှင်းနိုင်ပြီး ၎င်းတို့ကိုယ်တိုင် ဆုံးဖြတ်ချက်များကို ချမှတ်နိုင်သည်ဟူသော အဆိုကို ထွက်ပေါ်လာခဲ့သည်။ ပြဿနာမှာ ကွန်ပြူတာများသည် ဉာဏ်ရည်တု ဖွံ့ဖြိုးတိုးတက်မှုအတွက် အရေးပါသော ခြေလှမ်းဖြစ်သည့် ထိုဒေတာကို ကျက်မှတ်ရန် အလားအလာ မရှိသေးသောကြောင့် ဖြစ်သည်။ အဲဒီတုန်းက သူတို့လုပ်နိုင်တာက ရိုးရှင်းတဲ့ command တွေကို လုပ်ဆောင်ဖို့ပါပဲ။
AI ဖွံ့ဖြိုးတိုးတက်မှုအတွက် နောက်ထပ်အရေးကြီးသောအမည်မှာ “ဉာဏ်ရည်တု” ဟူသောအသုံးအနှုန်းကို ပထမဆုံးတီထွင်ခဲ့သူ John McCarthy ဖြစ်သည်။ McCarthy က AI သည် "ဉာဏ်ရည်ထက်မြက်သော စက်များဖန်တီးခြင်းဆိုင်ရာ သိပ္ပံနှင့် အင်ဂျင်နီယာ" ဖြစ်သည်ဟု ပြောကြားခဲ့သည်။ 1956 ခုနှစ်တွင် Dartmouth College ၌ ဟောပြောမှုကွန်ဖရင့်တစ်ခု၌ ဤအဓိပ္ပါယ်ဖွင့်ဆိုချက် ထွက်ပေါ်လာခဲ့သည်။ ထိုအချိန်မှစ၍ AI သည် အရှိန်အဟုန်ဖြင့် တိုးတက်လာသည်။
ယနေ့ခေတ်တွင် ဉာဏ်ရည်တုတုသည် နေရာတိုင်းတွင် ရှိနေသည်။ အဓိကအားဖြင့် ကမ္ဘာတစ်ဝှမ်းတွင် နေ့စဉ်ဖလှယ်နေသည့် ဒေတာစုစုပေါင်းပမာဏ တိုးလာခြင်းကြောင့် ၎င်းသည် အစုလိုက်အပြုံလိုက်မွေးစားခြင်းအထိ ကြီးထွားလာခဲ့သည်။ ၎င်းကို အဆင့်မြင့် အယ်လဂိုရီသမ်များတွင် အသုံးပြုပြီး သိုလှောင်မှုနှင့် ကွန်ပြူတာစွမ်းအားကို မြှင့်တင်ပေးသည်။ AI ကို ရည်ရွယ်ချက်များစွာအတွက်၊ ဥပမာ ဘာသာပြန်ဆိုခြင်း၊ ကူးယူဖော်ပြခြင်း၊ စကားပြောဆိုခြင်း၊ မျက်နှာနှင့် အရာဝတ္ထုများကို မှတ်မိခြင်း၊ ဆေးဘက်ဆိုင်ရာပုံများကို ခွဲခြမ်းစိတ်ဖြာခြင်း၊ သဘာဝဘာသာစကားများကို လုပ်ဆောင်ခြင်း၊ အမျိုးမျိုးသော လူမှုကွန်ရက်စစ်ထုတ်ခြင်းများ အစရှိသည်တို့ကို အသုံးပြုပါသည်။ Grandmaster Gari Kasparov နှင့် Deep Blue စစ်တုရင် AI တို့ရဲ့ စစ်တုရင်ပွဲကို သတိရပါ။
Machine learning သည် ဥာဏ်ရည်တု၏ နောက်ထပ်အရေးကြီးသော အပလီကေးရှင်းတစ်ခုဖြစ်သည်။ အတိုချုပ်အားဖြင့်၊ ၎င်းသည် ၎င်းတို့၏ကိုယ်ပိုင် အတွေ့အကြုံ၏ ဒေတာဘေ့စ်မှ သင်ယူရန်နှင့် မြှင့်တင်နိုင်သည့် မည်သည့်စနစ်များကိုမဆို ရည်ညွှန်းသည်။ ၎င်းသည် ပုံစံများကို အသိအမှတ်ပြုခြင်းဖြင့် လုပ်ဆောင်သည်။ နည်းစနစ်ကျဖို့အတွက် လေ့ကျင့်ပေးနိုင်ဖို့ လိုပါတယ်။ စနစ်၏ အယ်လဂိုရီသမ်သည် များပြားလှသော ဒေတာထည့်သွင်းမှုကို လက်ခံရရှိပြီး တစ်ချိန်တွင် ၎င်းသည် ထိုဒေတာမှ ပုံစံများကို ဖော်ထုတ်နိုင်မည်ဖြစ်သည်။ ဤလုပ်ငန်းစဉ်၏အဆုံးပန်းတိုင်မှာ လူသား၏ဝင်ရောက်စွက်ဖက်မှု သို့မဟုတ် အကူအညီမလိုအပ်ဘဲ ဤကွန်ပြူတာစနစ်များကို လွတ်လပ်စွာလေ့လာနိုင်စေရန်ဖြစ်သည်။
Machine Learning နဲ့တွဲပြီး ပြောရမယ့် နောက်ထပ်အရေးကြီးတာက Deep Learning ဖြစ်ပါတယ်။ နက်နဲသောသင်ယူမှုလုပ်ငန်းစဉ်တွင် အရေးကြီးဆုံးကိရိယာများထဲမှတစ်ခုမှာ အာရုံကြောအတုများဟုခေါ်သော ကွန်ရက်များဖြစ်သည်။ ၎င်းတို့သည် လူ့ဦးနှောက်၏ တည်ဆောက်ပုံနှင့် လုပ်ဆောင်ပုံနှင့် ဆင်တူသော အဆင့်မြင့် algorithms များဖြစ်သည်။ သို့သော် ၎င်းတို့သည် ပလတ်စတစ်နှင့် ပိုတူသော analogue ကိုအခြေခံသည့် ဇီဝဦးနှောက်နှင့် မတူဘဲ တည်ငြိမ်ပြီး သင်္ကေတများဖြစ်သည်။ တိုတိုပြောရရင်၊ ဒီနက်နဲတဲ့သင်ယူမှုဟာ အာရုံကြောအတုကွန်ရက်တွေကို အဓိကအခြေခံထားတဲ့ အလွန်အထူးပြုတဲ့ စက်သင်ယူမှုပုံစံဖြစ်ပါတယ်။ နက်ရှိုင်းစွာ သင်ယူခြင်း၏ ပန်းတိုင်မှာ လူသားများ၏ သင်ယူမှု လုပ်ငန်းစဉ်များကို အနီးကပ် ပုံတူကူးချရန် ဖြစ်သည်။ နက်ရှိုင်းသောသင်ယူမှုနည်းပညာသည် အလွန်အသုံးဝင်ပြီး ၎င်းသည် အသံဖြင့်ထိန်းချုပ်ထားသည့်အမျိုးမျိုးသောစက်ပစ္စည်းများတွင်အရေးကြီးသောအခန်းကဏ္ဍမှပါဝင်ပါသည် - တက်ဘလက်များ၊ တီဗီများ၊ စမတ်ဖုန်းများ၊ ရေခဲသေတ္တာများစသည်တို့ကိုကြိုတင်ခန့်မှန်းရန်ရည်ရွယ်သည့် အာရုံကြောကွန်ရက်အတုများကို စစ်ထုတ်သည့်စနစ်တစ်မျိုးအဖြစ်လည်းအသုံးပြုပါသည်။ အသုံးပြုသူသည် အနာဂတ်တွင် ဝယ်ယူနိုင်မည်ဖြစ်သည်။ နက်ရှိုင်းသောသင်ယူမှုနည်းပညာကိုလည်း ဆေးဘက်ဆိုင်ရာနယ်ပယ်တွင် အလွန်တွင်ကျယ်စွာအသုံးပြုသည်။ ၎င်းသည် ကင်ဆာဆဲလ်များကို အလိုအလျောက်သိရှိနိုင်ရန် ကူညီပေးသောကြောင့် ကင်ဆာသုတေသီများအတွက် အလွန်အရေးကြီးပါသည်။
ယခုကျွန်ုပ်တို့သည် စကားပြောအသိအမှတ်ပြုခြင်းသို့ ပြန်သွားပါမည်။ ယခုဖော်ပြခဲ့သည့်အတိုင်း ဤနည်းပညာသည် စကားပြောဘာသာစကား၏ အမျိုးမျိုးသော စကားလုံးများနှင့် စကားစုများကို ဖော်ထုတ်ရန် ရည်ရွယ်ပါသည်။ ထို့နောက် ၎င်းသည် ၎င်းတို့အား စက်ဖြင့်ဖတ်နိုင်သော ဖော်မတ်အဖြစ်သို့ ပြောင်းလဲပေးသည်။ အခြေခံပရိုဂရမ်များသည် သော့ချက်စကားစုအနည်းငယ်ကိုသာ ခွဲခြားသတ်မှတ်နိုင်သော်လည်း အချို့သောအဆင့်မြင့်သော စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲသည် သဘာဝကျသော စကားပြောအမျိုးအစားအားလုံးကို ပုံဖော်နိုင်သည်။ အသံမှတ်သားခြင်းနည်းပညာသည် ကိစ္စအများစုတွင် အဆင်ပြေသော်လည်း အသံသွင်းခြင်းအရည်အသွေး မလုံလောက်သောအခါ သို့မဟုတ် စပီကာကို ကောင်းစွာနားလည်ရန်ခက်ခဲစေသည့် နောက်ခံဆူညံသံများရှိနေသောအခါတွင် တစ်ခါတစ်ရံတွင် ပြဿနာများကြုံတွေ့ရတတ်သည်။ စပီကာသည် အမှန်တကယ်ပြင်းထန်သော လေယူလေသိမ်း သို့မဟုတ် ဒေသိယစကားရှိသည့်အခါ ပြဿနာအချို့လည်း ကြုံတွေ့ရနိုင်သေးသည်။ စကားပြောအသိအမှတ်ပြုမှုသည် အဆက်မပြတ်တိုးတက်နေသော်လည်း ၎င်းသည် ပြီးပြည့်စုံမှုမရှိသေးပါ။ အရာအားလုံးသည် စကားလုံးများနှင့်ပတ်သက်သည်မဟုတ်ပါ၊ စက်များသည် လူသားများလုပ်ဆောင်နိုင်သည့်အရာများစွာကို မစွမ်းဆောင်နိုင်သေးပါ။ သို့ရာတွင်၊ ဤအဆင့်မြင့် အယ်လဂိုရီသမ်များဖြင့် ဒေတာများပိုမိုရရှိလာသောကြောင့်၊ အချို့သောစိန်ခေါ်မှုများသည် အခက်အခဲလျော့နည်းသွားပုံရသည်။ အနာဂတ်မှာ ဘာတွေဖြစ်လာမလဲဆိုတာ ဘယ်သူသိမလဲ။ စကားပြောအသိအမှတ်ပြုမှု ဘယ်မှာ အဆုံးသတ်မယ်ဆိုတာ ခန့်မှန်းရခက်ပါတယ်။ ဥပမာအားဖြင့်၊ Google သည် Google Translate အင်ဂျင်များတွင် စကားပြောမှတ်သားမှုဆော့ဖ်ဝဲကို အကောင်အထည်ဖော်ရာတွင် အောင်မြင်မှုများစွာရရှိနေပြီဖြစ်ပြီး စက်သည် အဆက်မပြတ်လေ့လာနေပြီး ဖွံ့ဖြိုးတိုးတက်နေပါသည်။ တစ်နေ့တွင် သူတို့သည် လူသားဘာသာပြန်များ လုံးလုံးလျားလျား အစားထိုးနိုင်မည်ဖြစ်သည်။ သို့တည်းမဟုတ်၊ နေ့စဉ်စကားပြောအခြေအနေများသည် လူ့စိတ်၏အတိမ်အနက်ကို မဖတ်နိုင်သော မည်သည့်စက်မျိုးအတွက်မဆို ရှုပ်ထွေးလွန်းပါသည်။
စကားပြောအသိအမှတ်ပြုမှုကို ဘယ်အချိန်မှာ သုံးမလဲ။
ယနေ့ခေတ်တွင် လူတိုင်းနီးပါး စမတ်ဖုန်း သို့မဟုတ် တက်ဘလက်တစ်ခု ရှိနေပြီဖြစ်သည်။ စကားသံကို အသိအမှတ်ပြုခြင်းသည် ထိုစက်ပစ္စည်းများတွင် သာမာန်အင်္ဂါရပ်တစ်ခုဖြစ်သည်။ ၎င်းတို့သည် လူတစ်ဦး၏ အပြောအဆိုကို လုပ်ဆောင်ချက်အဖြစ်သို့ ပြောင်းလဲရန် ၎င်းတို့ကို အသုံးပြုသည်။ မင်းအဖွားကို ခေါ်ချင်ရင် “အဖွားကို ခေါ်ပါ” လို့ အမိန့်ပေးရုံနဲ့ မင်းရဲ့စမတ်ဖုန်းက မင်းရဲ့အဆက်အသွယ်စာရင်းတွေကို ရိုက်ထည့်စရာမလိုဘဲ နံပါတ်ကို ခေါ်နေပြီပဲ။ ဒါက စကားပြော မှတ်သားခြင်းပါ။ ၎င်း၏ နောက်ထပ်ဥပမာကောင်းတစ်ခုမှာ Alexa သို့မဟုတ် Siri ဖြစ်သည်။ ၎င်းတို့တွင် ဤအင်္ဂါရပ်ကို ၎င်းတို့၏စနစ်တွင် ကြိုးမဲ့ကြိုးတပ်ထားခြင်းဖြစ်သည်။ Google သည် သင့်အား မည်သည့်အရာကိုမျှ စာမရိုက်ဘဲ အသံဖြင့် ရှာဖွေရန် ရွေးချယ်ခွင့်ကိုလည်း ပေးပါသည်။
ဤအရာအားလုံးမည်သို့အလုပ်လုပ်သည်ကိုသင်ယခုသိချင်နေပေမည်။ ကောင်းပြီ၊ ၎င်းသည် အလုပ်လုပ်ရန်အတွက် စကားပြောသောစကားလုံးများ၏ အသံလှိုင်းများကို အသိအမှတ်ပြု၊ ခွဲခြမ်းစိတ်ဖြာပြီး ဒစ်ဂျစ်တယ်ဖော်မတ်အဖြစ်သို့ ပြောင်းလဲနိုင်ရန် မိုက်ခရိုဖုန်းကဲ့သို့သော အာရုံခံကိရိယာများကို ဆော့ဖ်ဝဲတွင် တည်ဆောက်ထားရပါမည်။ ထို့နောက် ဒစ်ဂျစ်တယ်အချက်အလက်ကို စကားလုံးများနှင့် အသုံးအနှုန်းများ သိုလှောင်ရာနေရာများတွင် သိမ်းဆည်းထားသည့် အခြားအချက်အလက်များနှင့် နှိုင်းယှဉ်ရမည်ဖြစ်သည်။ ကိုက်ညီမှုရှိလျှင် ဆော့ဖ်ဝဲသည် အမိန့်ကို မှတ်မိနိုင်ပြီး လိုက်လျောညီထွေ ပြုမူနိုင်သည်။
ဤနေရာတွင် ထပ်မံဖော်ပြလိုသည့်အချက်မှာ WER (စကားလုံးအမှားနှုန်း) ဟုခေါ်သည်။ ၎င်းသည် အမှားနံပါတ်ကို စကားလုံးစုစုပေါင်းဖြင့် ပိုင်းခြားထားသော ဖော်မြူလာတစ်ခုဖြစ်သည်။ ဒါကြောင့် ရိုးရိုးရှင်းရှင်းပြောရရင် တိကျမှုနဲ့ အများကြီးသက်ဆိုင်ပါတယ်။ ရည်ရွယ်ချက်မှာ WER နိမ့်ပါးရန်မှာ သေချာသည်၊ အကြောင်းမှာ၊ ဆိုလိုသည်မှာ စကား၏ ကူးယူဖော်ပြမှုသည် ပိုမိုတိကျသည်ဟု ဆိုလိုသည်။
စကားပြော အသိအမှတ်ပြုခြင်း သည် ယခင်ကကဲ့သို့ တောင်းဆိုလာပါသည်။ အသံသွင်းထားသော အသံဖိုင်ကို စာသားဟု ဆိုကြပါစို့၊ စကားပြောဆိုထားသည့် စကားလုံးကို စာသားအဖြစ်သို့ ပြောင်းလဲရန် လိုအပ်ပါက၊ သင်သည် Gglot သို့ ပြောင်းနိုင်သည်။ ကျွန်ုပ်တို့သည် သင့်တင့်မျှတသောစျေးနှုန်းဖြင့် တိကျမှန်ကန်သော စာသားမှတ်တမ်းများကို ပေးဆောင်ပေးသော စာသားမှတ်တမ်းဝန်ဆောင်မှုပေးပါသည်။ ထို့ကြောင့် ကျွန်ုပ်တို့၏အသုံးပြုရလွယ်ကူသော ဝဘ်ဆိုက်မှတစ်ဆင့် ဆက်သွယ်ရန် မတွန့်ဆုတ်ပါနှင့်။