സ്പീച്ച് റെക്കഗ്നിഷനിൽ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസിൻ്റെയും യന്ത്ര പഠനത്തിൻ്റെയും പങ്ക്

സ്പീച്ച് റെക്കഗ്നിഷനിൽ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസിൻ്റെയും മെഷീൻ ലേണിംഗിൻ്റെയും പങ്ക്

വളരെക്കാലമായി ആളുകൾ യന്ത്രങ്ങളുമായി സംസാരിക്കാൻ ആഗ്രഹിക്കുന്നു. അവർ കമ്പ്യൂട്ടറുകൾ നിർമ്മിക്കാൻ തുടങ്ങിയതുമുതൽ, ശാസ്ത്രജ്ഞരും എഞ്ചിനീയർമാരും ഈ പ്രക്രിയയിൽ സംഭാഷണ തിരിച്ചറിയൽ ഉൾപ്പെടുത്താൻ ശ്രമിച്ചു. 1962-ൽ, ലളിതമായ ഗണിത കണക്കുകൂട്ടലുകൾ നടത്താൻ കഴിയുന്ന ഷൂബോക്സ് എന്ന സ്പീച്ച് റെക്കഗ്നിഷൻ മെഷീനായ ഐബിഎം അവതരിപ്പിച്ചു. ഈ നൂതന ഉപകരണം "0" മുതൽ "9" വരെയുള്ള പത്ത് അക്കങ്ങൾ ഉൾപ്പെടെ 16 സംസാരിക്കുന്ന വാക്കുകൾ തിരിച്ചറിയുകയും പ്രതികരിക്കുകയും ചെയ്തു. "പ്ലസ്," "മൈനസ്", "മൊത്തം" എന്നിങ്ങനെയുള്ള ഒരു സംഖ്യയും കമാൻഡ് വാക്കുകളും പറഞ്ഞപ്പോൾ, ലളിതമായ ഗണിത പ്രശ്നങ്ങൾക്കുള്ള ഉത്തരങ്ങൾ കണക്കാക്കാനും പ്രിൻ്റ് ചെയ്യാനും ഷൂബോക്സ് ഒരു കൂട്ടിച്ചേർക്കൽ യന്ത്രത്തിന് നിർദ്ദേശം നൽകി. ഒരു മൈക്രോഫോണിലേക്ക് സംസാരിച്ചാണ് ഷൂബോക്‌സ് പ്രവർത്തിപ്പിച്ചത്, അത് ശബ്ദ ശബ്ദങ്ങളെ വൈദ്യുത പ്രേരണകളാക്കി മാറ്റി. ഒരു അളക്കുന്ന സർക്യൂട്ട് ഈ പ്രേരണകളെ വിവിധ തരം ശബ്ദങ്ങൾക്കനുസരിച്ച് തരംതിരിക്കുകയും റിലേ സിസ്റ്റം വഴി ഘടിപ്പിച്ച ആഡിംഗ് മെഷീൻ സജീവമാക്കുകയും ചെയ്തു.

കാലക്രമേണ, ഈ സാങ്കേതികവിദ്യ വികസിക്കുകയും ഇന്ന് നമ്മിൽ പലരും ശബ്ദത്തിലൂടെ കമ്പ്യൂട്ടറുമായി ഇടപഴകുകയും ചെയ്യുന്നു. ആമസോണിൻ്റെ അലക്‌സ, ആപ്പിളിൻ്റെ സിരി, ഗൂഗിൾ അസിസ്റ്റൻ്റ്, മൈക്രോസോഫ്റ്റിൻ്റെ കോർട്ടാന എന്നിവയാണ് ഇന്ന് ഏറ്റവും ജനപ്രിയമായ വോയ്‌സ് അസിസ്റ്റൻ്റുമാർ. ഈ അസിസ്റ്റൻ്റുകൾക്ക് കമാൻഡുകളോ ചോദ്യങ്ങളോ അടിസ്ഥാനമാക്കി ഒരു വ്യക്തിക്ക് ടാസ്‌ക്കുകളോ സേവനങ്ങളോ ചെയ്യാൻ കഴിയും. മനുഷ്യൻ്റെ സംസാരത്തെ വ്യാഖ്യാനിക്കാനും സമന്വയിപ്പിച്ച ശബ്ദങ്ങളിലൂടെ പ്രതികരിക്കാനും അവർക്ക് കഴിയും. ഉപയോക്താക്കൾക്ക് അവരുടെ സഹായികളോട് ചോദ്യങ്ങൾ ചോദിക്കാനും വോയ്‌സ് വഴി ഹോം ഓട്ടോമേഷൻ ഉപകരണങ്ങളും മീഡിയ പ്ലേബാക്കും നിയന്ത്രിക്കാനും വാക്കാലുള്ള കമാൻഡുകൾ ഉപയോഗിച്ച് ഇമെയിൽ, ചെയ്യേണ്ട ലിസ്റ്റുകൾ, കലണ്ടറുകൾ എന്നിവ പോലുള്ള മറ്റ് അടിസ്ഥാന ജോലികൾ നിയന്ത്രിക്കാനും കഴിയും. ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് (AI), മെഷീൻ ലേണിംഗ് എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു.

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് (AI)

1

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് (AI) എന്ന് പറയുമ്പോൾ, നമ്മുടെ ദൈനംദിന ജീവിതത്തിൽ AI വളരെ ഉൾച്ചേർന്നിട്ടുണ്ടെങ്കിലും, നിങ്ങൾ സയൻസ് ഫിക്ഷനെക്കുറിച്ചാണ് സംസാരിക്കുന്നതെന്ന് പലരും ചിന്തിച്ചേക്കാം. വാസ്തവത്തിൽ, അത് പതിറ്റാണ്ടുകളായി. പക്ഷേ, 20 -ാം നൂറ്റാണ്ടിൻ്റെ തുടക്കത്തിൽ കൃത്രിമബുദ്ധിയുള്ള മനുഷ്യനെപ്പോലെയുള്ള റോബോട്ടുകളെ പൊതുജനങ്ങൾക്ക് പരിചയപ്പെടുത്തിയത് സയൻസ് ഫിക്ഷനായിരുന്നു എന്നതാണ് സത്യം. 50-കളിൽ, ശാസ്ത്രജ്ഞരുടെയും തത്ത്വചിന്തകരുടെയും താൽപ്പര്യങ്ങൾക്കായി AI എന്ന ആശയങ്ങൾ കൂടുതൽ കൂടുതൽ വന്നു. അക്കാലത്ത്, യുവ ബ്രിട്ടീഷ് ഗണിതശാസ്ത്രജ്ഞൻ അലൻ ട്യൂറിംഗ്, യന്ത്രങ്ങൾക്ക് (മനുഷ്യരെപ്പോലെ) പ്രശ്നങ്ങൾ പരിഹരിക്കാനും ലഭ്യമായ വിവരങ്ങളെ അടിസ്ഥാനമാക്കി തീരുമാനങ്ങൾ എടുക്കാനും കഴിയാത്തതിന് ഒരു കാരണവുമില്ലെന്ന് അഭിപ്രായപ്പെട്ടു. എന്നാൽ അക്കാലത്ത്, ബുദ്ധിശക്തിയുടെ താക്കോൽ മനഃപാഠമാക്കാനുള്ള സാധ്യത കമ്പ്യൂട്ടറുകൾക്ക് ഇല്ലായിരുന്നു. കമാൻഡുകൾ നടപ്പിലാക്കുക മാത്രമാണ് അവർ ചെയ്തത്. എന്നിട്ടും, ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസിൻ്റെ അടിസ്ഥാന ലക്ഷ്യവും കാഴ്ചപ്പാടും സ്ഥാപിച്ചത് അലൻ ട്യൂറിങ്ങാണ്.

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് എന്ന പദം ഉപയോഗിച്ച ജോൺ മക്കാർത്തിയാണ് AI യുടെ പിതാവായി പരക്കെ അംഗീകരിക്കപ്പെടുന്നത്. അദ്ദേഹത്തെ സംബന്ധിച്ചിടത്തോളം AI ആയിരുന്നു: "ബുദ്ധിയുള്ള യന്ത്രങ്ങൾ നിർമ്മിക്കുന്നതിനുള്ള ശാസ്ത്രവും എഞ്ചിനീയറിംഗും". 1956-ൽ ഡാർട്ട്മൗത്ത് കോളേജിൽ നടന്ന ഒരു കോൺഫറൻസിൽ ഈ നിർവചനം അവതരിപ്പിക്കപ്പെട്ടു, ഇത് AI ഗവേഷണത്തിൻ്റെ തുടക്കത്തെ സൂചിപ്പിക്കുന്നു. അന്നുമുതൽ AI തഴച്ചുവളർന്നു.

ആധുനിക ലോകത്ത് ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് സർവ്വവ്യാപിയാണ്. വർദ്ധിച്ച ഡാറ്റ വോള്യങ്ങൾ, വിപുലമായ അൽഗോരിതങ്ങൾ, കമ്പ്യൂട്ടിംഗ് പവർ, സ്റ്റോറേജ് എന്നിവയിലെ മെച്ചപ്പെടുത്തലുകൾ എന്നിവ കാരണം ഇത് കൂടുതൽ ജനപ്രിയമായി. കൂടുതലും AI ആപ്ലിക്കേഷൻ ബൗദ്ധിക ജോലികളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്നു. വിവർത്തനം, ഒബ്ജക്റ്റ്, മുഖം, സംഭാഷണം തിരിച്ചറിയൽ, വിഷയം കണ്ടെത്തൽ, മെഡിക്കൽ ഇമേജ് വിശകലനം, നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്, സോഷ്യൽ നെറ്റ്‌വർക്ക് ഫിൽട്ടറിംഗ്, ചെസ്സ് കളിക്കൽ തുടങ്ങിയവയ്ക്കായി ഞങ്ങൾ AI ഉപയോഗിക്കുന്നു.

യന്ത്ര പഠനം

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസിൻ്റെ ഒരു പ്രയോഗമാണ് മെഷീൻ ലേണിംഗ്, ഇത് സ്വന്തം അനുഭവത്തിൽ നിന്ന് മെച്ചപ്പെടുത്താനുള്ള കഴിവുള്ള സിസ്റ്റങ്ങളെ സൂചിപ്പിക്കുന്നു. പാറ്റേണുകൾ എങ്ങനെ തിരിച്ചറിയാമെന്ന് സിസ്റ്റം അറിയേണ്ടതുണ്ട് എന്നതാണ് ഇവിടെ ഏറ്റവും പ്രധാനപ്പെട്ട കാര്യം. അത് ചെയ്യാൻ സിസ്റ്റത്തിന് പരിശീലനം ആവശ്യമാണ്: അൽഗോരിതം വലിയ അളവിലുള്ള ഡാറ്റ ഫീഡ് ചെയ്യുന്നതിനാൽ ചില ഘട്ടങ്ങളിൽ പാറ്റേണുകൾ തിരിച്ചറിയാൻ കഴിയും. മനുഷ്യൻ്റെ ഇടപെടലോ സഹായമോ ഇല്ലാതെ കമ്പ്യൂട്ടറുകളെ സ്വയമേവ പഠിക്കാൻ അനുവദിക്കുക എന്നതാണ് ലക്ഷ്യം.

മെഷീൻ ലേണിംഗിനെക്കുറിച്ച് പറയുമ്പോൾ, ആഴത്തിലുള്ള പഠനത്തെക്കുറിച്ച് പരാമർശിക്കേണ്ടത് പ്രധാനമാണ്. ആഴത്തിലുള്ള പഠനത്തിൽ ഉപയോഗിക്കുന്ന പ്രധാന ഉപകരണങ്ങളിലൊന്ന് കൃത്രിമ ന്യൂറൽ നെറ്റ്‌വർക്കുകളാണെന്ന് പറഞ്ഞുകൊണ്ട് നമുക്ക് ആരംഭിക്കാം. ബയോളജിക്കൽ ബ്രെയിൻ പോലെ പ്ലാസ്റ്റിക്, അനലോഗ് എന്നിവയല്ല, അവ നിശ്ചലവും പ്രതീകാത്മകവുമാണ് എങ്കിലും, തലച്ചോറിൻ്റെ ഘടനയിലും പ്രവർത്തനത്തിലും പ്രചോദനം ഉൾക്കൊണ്ട അൽഗരിതങ്ങളാണിവ. അതിനാൽ, കൃത്രിമ ന്യൂറൽ നെറ്റ്‌വർക്കിനെ അടിസ്ഥാനമാക്കിയുള്ള ഒരു പ്രത്യേക മെഷീൻ ലേണിംഗ് രൂപമാണ് ആഴത്തിലുള്ള പഠനം, ഇതിൻ്റെ ലക്ഷ്യം മനുഷ്യർ പഠിക്കുന്ന രീതി ആവർത്തിക്കുക എന്നതാണ്, കൂടാതെ ഒരു പ്രോഗ്രാമർക്ക് മെഷീനെ പഠിപ്പിക്കാൻ കഴിയാത്തത്ര പാറ്റേണുകൾ കണ്ടെത്തുന്നതിനുള്ള മികച്ച ഉപകരണമായി ഇത് പ്രവർത്തിക്കുന്നു. കഴിഞ്ഞ രണ്ട് വർഷങ്ങളായി ഡ്രൈവറില്ലാ കാറുകളെക്കുറിച്ചും അവ നമ്മുടെ ജീവിതത്തെ എങ്ങനെ മാറ്റിമറിക്കും എന്നതിനെക്കുറിച്ചും ധാരാളം ചർച്ചകൾ നടക്കുന്നുണ്ട്. ഡീപ് ലേണിംഗ് ടെക്‌നോളജിയാണ് ഇവിടെ പ്രധാനം, കാരണം ഒരു കാൽനടയാത്രക്കാരനെ ഫയർ ഹൈഡ്രൻ്റിൽ നിന്ന് വേർതിരിച്ചറിയുന്നതിനോ ചുവന്ന ലൈറ്റ് തിരിച്ചറിയുന്നതിനോ കാറിനെ പ്രാപ്തമാക്കുന്നതിലൂടെ ഇത് അപകടങ്ങൾ കുറയ്ക്കുന്നു. ടാബ്‌ലെറ്റുകൾ, ഫോണുകൾ, ഫ്രിഡ്ജുകൾ, ടിവികൾ തുടങ്ങിയ ഉപകരണങ്ങളിൽ വോയ്‌സ് നിയന്ത്രണത്തിൽ ഡീപ് ലേണിംഗ് ടെക്‌നോളജി പ്രധാന പങ്ക് വഹിക്കുന്നു. ഇ-കൊമേഴ്‌സ് കമ്പനികൾ പലപ്പോഴും കൃത്രിമ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ ഒരു ഫിൽട്ടറിംഗ് സിസ്റ്റമായി ഉപയോഗിക്കുന്നു, അത് ഉപയോക്താവ് ആഗ്രഹിക്കുന്ന ഇനങ്ങൾ പ്രവചിക്കാനും കാണിക്കാനും ശ്രമിക്കുന്നു. വാങ്ങാൻ. മെഡിക്കൽ മേഖലയിലും ഡീപ് ലേണിംഗ് സാങ്കേതികവിദ്യ ഉപയോഗിക്കുന്നു. ക്യാൻസർ കോശങ്ങളെ സ്വയമേവ കണ്ടെത്തുന്നതിന് ക്യാൻസർ ഗവേഷകരെ ഇത് സഹായിക്കുന്നു, അങ്ങനെ കാൻസർ ചികിത്സയിൽ വലിയ പുരോഗതിയെ പ്രതിനിധീകരിക്കുന്നു.

സംസാരം തിരിച്ചറിയൽ

സംസാര ഭാഷയിൽ രൂപപ്പെടുന്ന വാക്കുകളും ശൈലികളും തിരിച്ചറിയാനും അവയെ മെഷീനായി വായിക്കാവുന്ന ഫോർമാറ്റിലേക്ക് മാറ്റാനും സ്പീച്ച് റെക്കഗ്നിഷൻ സാങ്കേതികവിദ്യ സഹായിക്കുന്നു. ചില പ്രോഗ്രാമുകൾക്ക് പരിമിതമായ എണ്ണം പദസമുച്ചയങ്ങൾ മാത്രമേ തിരിച്ചറിയാൻ കഴിയൂ, ചില കൂടുതൽ സങ്കീർണ്ണമായ സംഭാഷണ തിരിച്ചറിയൽ പ്രോഗ്രാമുകൾക്ക് സ്വാഭാവിക സംസാരം മനസ്സിലാക്കാൻ കഴിയും.

മറികടക്കാൻ തടസ്സങ്ങളുണ്ടോ?

സൗകര്യപ്രദമാണെങ്കിലും, സ്പീച്ച് റെക്കഗ്നിഷൻ സാങ്കേതികവിദ്യ എല്ലായ്പ്പോഴും സുഗമമായി പോകുന്നില്ല, അത് തുടർച്ചയായി വികസിപ്പിച്ചെടുക്കുന്നതിനാൽ ഇതിന് ചില പ്രശ്നങ്ങൾ പരിഹരിക്കേണ്ടതുണ്ട്. ഉണ്ടാകാനിടയുള്ള പ്രശ്‌നങ്ങളിൽ ഇനിപ്പറയുന്നവ ഉൾപ്പെടാം: റെക്കോർഡിംഗിൻ്റെ ഗുണനിലവാരം അപര്യാപ്തമായിരിക്കാം, സ്പീക്കറെ മനസ്സിലാക്കാൻ ബുദ്ധിമുട്ടുള്ള പശ്ചാത്തലത്തിൽ ശബ്ദങ്ങൾ ഉണ്ടാകാം, കൂടാതെ സ്പീക്കറിന് ശരിക്കും ശക്തമായ ഉച്ചാരണമോ ഭാഷാഭേദമോ ഉണ്ടായിരിക്കാം (നിങ്ങളാണോ? ജിയോർഡി ഭാഷ എപ്പോഴെങ്കിലും കേട്ടിട്ടുണ്ടോ?), മുതലായവ.

സ്പീച്ച് തിരിച്ചറിയൽ വളരെയധികം വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്, പക്ഷേ അത് ഇപ്പോഴും പൂർണതയിൽ നിന്ന് വളരെ അകലെയാണ്. എല്ലാം വാക്കുകളിൽ മാത്രമല്ല, മനുഷ്യർക്ക് ചെയ്യാൻ കഴിയുന്ന പല കാര്യങ്ങളും യന്ത്രത്തിന് ഇപ്പോഴും ചെയ്യാൻ കഴിയില്ല: അവർക്ക് ശരീരഭാഷ വായിക്കാനോ ആരുടെയെങ്കിലും ശബ്ദത്തിലെ പരിഹാസ്യമായ ടോൺ തിരിച്ചറിയാനോ കഴിയില്ല. ആളുകൾ പലപ്പോഴും എല്ലാ വാക്കുകളും ശരിയായ രീതിയിൽ ഉച്ചരിക്കുന്നില്ല, അവർ ചില വാക്കുകൾ ചെറുതാക്കുന്നു. ഉദാഹരണത്തിന്, വേഗത്തിലും അനൗപചാരികമായും സംസാരിക്കുമ്പോൾ, നേറ്റീവ് ഇംഗ്ലീഷ് സംസാരിക്കുന്നവർ പലപ്പോഴും "gonna" എന്ന് ഉച്ചരിക്കുന്നു. മേൽപ്പറഞ്ഞവയെല്ലാം, അവർ മറികടക്കാൻ ശ്രമിക്കുന്ന യന്ത്രങ്ങൾക്ക് തടസ്സങ്ങൾ സൃഷ്ടിക്കുന്നു, പക്ഷേ അവയ്ക്ക് മുന്നിൽ ഇനിയും ഒരുപാട് ദൂരം ഉണ്ട്. കൂടുതൽ കൂടുതൽ ഡാറ്റ ആ പ്രത്യേക അൽഗോരിതങ്ങളിലേക്ക് ഫീഡ് ചെയ്യുന്നതിനാൽ അത് ഹൈലൈറ്റ് ചെയ്യേണ്ടത് പ്രധാനമാണ്; വെല്ലുവിളികൾ കുറയുന്നതായി തോന്നുന്നു. സ്വയമേവയുള്ള സംഭാഷണ തിരിച്ചറിയലിൻ്റെ ഭാവി ശോഭനമാണെന്ന് തോന്നുന്നു.

വോയ്‌സ്-പവർ യൂസർ ഇൻ്റർഫേസുകൾ വീടുകളിൽ കൂടുതൽ ലഭ്യമാവുകയും ജനപ്രിയമാവുകയും ചെയ്യുന്നു. ഇത് സാങ്കേതികവിദ്യയിലെ അടുത്ത പ്ലാറ്റ്‌ഫോമായി മാറിയേക്കാം.

Gglot ഓട്ടോമേറ്റഡ് ട്രാൻസ്ക്രിപ്ഷൻ സേവനങ്ങളുടെ രൂപത്തിൽ സ്വയമേവയുള്ള സംഭാഷണ തിരിച്ചറിയൽ വാഗ്ദാനം ചെയ്യുന്നു - ഞങ്ങൾ സംഭാഷണങ്ങളെ ടെക്‌സ്‌റ്റിലേക്ക് മാറ്റുന്നു. ഞങ്ങളുടെ സേവനം ഉപയോഗിക്കാൻ ലളിതമാണ്, ഇതിന് നിങ്ങൾക്ക് കൂടുതൽ ചിലവ് വരില്ല, അത് വേഗത്തിൽ ചെയ്യപ്പെടും!