பேச்சு அங்கீகாரம் என்றால் என்ன?
பேச்சு அங்கீகாரம்
பேச்சு அங்கீகாரம் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டியது
நாம் பேச்சு அங்கீகாரத்தைப் பற்றி பேசும்போது, பொதுவாக நாம் பேசும் வார்த்தையை அடையாளம் கண்டு அதை நிரலில் எழுதும் திறன் கொண்ட ஒரு மென்பொருளைக் குறிக்கிறோம், இறுதியில் நீங்கள் எழுதப்பட்ட வடிவத்தில் பேசப்பட்ட அனைத்தையும் பெறுவீர்கள். இது பெரும்பாலும் "பேச்சு-க்கு-உரை" என்றும் குறிப்பிடப்படுகிறது. தொடக்கத்தில் அந்த மென்பொருளுக்கு மிகக் குறைந்த சாத்தியக்கூறுகள் இருந்தன, எனவே நீங்கள் குறிப்பிட்ட எண்ணிக்கையிலான சொற்றொடர்களை மட்டுமே மாற்ற முடியும். காலப்போக்கில், பேச்சு அறிதல் மென்பொருளுக்குப் பின்னால் உள்ள தொழில்நுட்பம் நிறைய வளர்ச்சியடைந்துள்ளது, இப்போது அது மிகவும் அதிநவீனமானது, இதனால் வெவ்வேறு மொழிகளையும் வெவ்வேறு உச்சரிப்புகளையும் கூட அடையாளம் காண முடியும். ஆனால் நிச்சயமாக, இந்தத் துறையில் இன்னும் செய்ய வேண்டிய பணிகள் உள்ளன.
சில சமயங்களில் மக்கள் ஒரே விஷயத்திற்கு இரண்டு சொற்களைப் பயன்படுத்தினாலும், பேச்சு அங்கீகாரம் குரல் அங்கீகாரம் போன்றது அல்ல என்பதையும் கவனிக்க வேண்டியது அவசியம். குரல் அங்கீகாரம் பேசும் நபரை அடையாளம் காண பயன்படுத்தப்படுகிறது மற்றும் என்ன பேசப்படுகிறது என்பதைக் கவனிக்க அல்ல.
பேச்சு அங்கீகாரம் மற்றும் தொடர்புடைய தொழில்நுட்பத்தின் ஒரு குறுகிய வரலாறு
இந்த கட்டுரையில், பேச்சு அங்கீகாரத்தின் எழுச்சியின் பின்னணியில் உள்ள வரலாறு மற்றும் தொழில்நுட்பத்தை சுருக்கமாக விளக்குவோம்.
டிஜிட்டல் யுகம் தோன்றிய காலத்திலிருந்தே, இயந்திரங்களுடன் எப்படியாவது தொடர்பு கொள்ள வேண்டும் என்ற வெறி மக்களிடம் இருந்தது. முதல் வகையான டிஜிட்டல் கணினி கண்டுபிடிக்கப்பட்ட பிறகு, பல விஞ்ஞானிகளும் பொறியாளர்களும் இந்த செயல்முறையில் பேச்சு அங்கீகாரத்தை எப்படியாவது செயல்படுத்த பல்வேறு வழிகளில் முயன்றனர். இந்த செயல்முறையின் முக்கியமான ஆண்டு 1962, ஐபிஎம் ஷூபாக்ஸை வெளிப்படுத்தியது, இது எளிய கணித கணக்கீடுகளைச் செய்யக்கூடிய அடிப்படை பேச்சு அங்கீகார இயந்திரமாகும். இந்த புரோட்டோ-கணினியின் பயனர் மைக்ரோஃபோனில் பேசினால், இந்த இயந்திரம் "பிளஸ்" அல்லது "மைனஸ்" போன்ற ஆறு கட்டுப்பாட்டு வார்த்தைகளை அடையாளம் காண முடியும். காலப்போக்கில், இதற்குப் பின்னால் உள்ள தொழில்நுட்பம் வளர்ந்தது மற்றும் இன்று கணினிகளுடன் குரல் மூலம் தொடர்புகொள்வது மிகவும் பொதுவான அம்சமாகும். Siri அல்லது Alexa போன்ற பல பிரபலமான பேச்சு அங்கீகார இயந்திரங்கள் உள்ளன. இந்த குரல்-உந்துதல் சாதனங்கள் செயற்கை நுண்ணறிவு (AI) மற்றும் இயந்திர கற்றல் சார்ந்து இருப்பதைக் குறிப்பிடுவது முக்கியம்.
செயற்கை நுண்ணறிவு (AI) குறிப்பிடப்படும் போது, அது ஏதோ ஒரு அறிவியல் புனைகதை திரைப்படத்தில் இருந்து தோன்றலாம், ஆனால் உண்மை என்னவென்றால், இன்றைய நாளிலும் யுகத்திலும் AI நம் உலகில் பெரும் பங்கு வகிக்கிறது. உண்மையில், AI ஏற்கனவே நம் அன்றாட வாழ்வில் உள்ளது, ஏனெனில் பல திட்டங்கள் மற்றும் பயன்பாடுகள் ஏற்கனவே அதை பயன்படுத்துகின்றன. ஆனால் இது 20 ஆம் நூற்றாண்டின் தொடக்கத்தில் அறிவியல் புனைகதையாக இருந்தது, அப்போது இந்த சொல் தோன்றியது. 1950 இன் பிற்பகுதியில், AI இன் கருத்துக்கள் மிகவும் முக்கியத்துவம் பெற்றன மற்றும் பல விஞ்ஞானிகள் மற்றும் தத்துவவாதிகளின் ஆர்வத்தின் மையமாக இருந்தது. அந்த நேரத்தில், மிகவும் லட்சியமான பிரிட்டிஷ் கணிதவியலாளர் ஆலன் டூரிங், கிடைக்கக்கூடிய தகவல்களின் உள்ளீட்டின் அடிப்படையில் இயந்திரங்கள் சிக்கல்களைத் தீர்க்கும் மற்றும் தாங்களாகவே முடிவுகளை எடுக்க முடியும் என்ற கருத்தைக் கொண்டு வந்தார். சிக்கல் என்னவென்றால், கணினிகளுக்கு அந்தத் தரவை மனப்பாடம் செய்வதற்கான சாத்தியக்கூறு இன்னும் இல்லை, இது செயற்கை நுண்ணறிவின் வளர்ச்சிக்கு ஒரு முக்கியமான படியாகும். அப்போது அவர்களால் செய்ய முடிந்ததெல்லாம் எளிய கட்டளைகளை இயக்குவதுதான்.
AI இன் வளர்ச்சியில் மற்றொரு முக்கியமான பெயர் ஜான் மெக்கார்த்தி ஆகும், அவர் முதலில் "செயற்கை நுண்ணறிவு" என்ற வார்த்தையை உருவாக்கினார். AI என்பது "அறிவுமிக்க இயந்திரங்களை உருவாக்கும் அறிவியல் மற்றும் பொறியியல்" என்று மெக்கார்த்தி கூறினார். இந்த வரையறை 1956 இல் டார்ட்மவுத் கல்லூரியில் நடந்த ஒரு கருத்தரங்கில் வெளிச்சத்திற்கு வந்தது. அதிலிருந்து AI ஒரு வெறித்தனமான வேகத்தில் உருவாக்கத் தொடங்கியது.
இன்று, செயற்கை நுண்ணறிவு அதன் பல்வேறு வடிவங்களில் எல்லா இடங்களிலும் உள்ளது. இது பெருமளவிலான தத்தெடுப்பு வரை வளர்ந்துள்ளது, முக்கியமாக ஒவ்வொரு நாளும் உலகம் முழுவதும் பரிமாறப்படும் தரவுகளின் ஒட்டுமொத்த அளவின் அதிகரிப்பு காரணமாக. இது மேம்பட்ட வழிமுறைகளில் பயன்படுத்தப்படுகிறது, மேலும் இது சேமிப்பு மற்றும் கணினி சக்தியில் மேம்பாடுகளுக்கு வழிவகுத்தது. AI பல நோக்கங்களுக்காகப் பயன்படுத்தப்படுகிறது, எடுத்துக்காட்டாக, மொழிபெயர்ப்பு, படியெடுத்தல், பேச்சு, முகம் மற்றும் பொருள் அங்கீகாரம், மருத்துவப் படங்களின் பகுப்பாய்வு, இயற்கை மொழிகளின் செயலாக்கம், பல்வேறு சமூக வலைப்பின்னல் வடிகட்டிகள் மற்றும் பல. கிராண்ட்மாஸ்டர் கேரி காஸ்பரோவ் மற்றும் டீப் ப்ளூ செஸ் AI இடையே நடந்த செஸ் போட்டி நினைவிருக்கிறதா?
இயந்திர கற்றல் என்பது செயற்கை நுண்ணறிவின் மற்றொரு மிக முக்கியமான பயன்பாடாகும். சுருக்கமாக, இது அவர்களின் சொந்த அனுபவத்தின் தரவுத்தளத்திலிருந்து கற்றுக் கொள்ளும் மற்றும் மேம்படுத்தும் திறன் கொண்ட எந்த அமைப்புகளையும் குறிக்கிறது. இது வடிவங்களை அங்கீகரிப்பதன் மூலம் செயல்படுகிறது. கணினி அதைச் செய்ய அது பயிற்சி பெற்றிருக்க வேண்டும். கணினியின் அல்காரிதம் பெரிய அளவிலான தரவுகளின் உள்ளீட்டைப் பெறுகிறது, மேலும் ஒரு கட்டத்தில் அது அந்தத் தரவிலிருந்து வடிவங்களை அடையாளம் காண முடியும். எந்தவொரு மனித தலையீடு அல்லது உதவி தேவையில்லாமல், இந்த கணினி அமைப்புகளை சுயாதீனமாக கற்றுக்கொள்வதற்கு இந்த செயல்முறையின் இறுதி இலக்கு உள்ளது.
மெஷின் லேர்னிங் உடன் குறிப்பிட வேண்டிய மற்றொரு விஷயம் ஆழமான கற்றல். ஆழ்ந்த கற்றலின் செயல்பாட்டில் மிக முக்கியமான கருவிகளில் ஒன்று செயற்கை நரம்பியல் நெட்வொர்க்குகள் என்று அழைக்கப்படுகின்றன. அவை மனித மூளையின் அமைப்பு மற்றும் செயல்பாட்டைப் போன்ற மேம்பட்ட வழிமுறைகள். இருப்பினும், அவை பிளாஸ்டிக் மற்றும் அதிக அனலாக் அடிப்படையிலான உயிரியல் மூளையைப் போலல்லாமல், நிலையான மற்றும் குறியீட்டுத் தன்மை கொண்டவை. சுருக்கமாக, இந்த ஆழ்ந்த கற்றல் இயந்திரக் கற்றலின் மிகவும் சிறப்பு வாய்ந்த முறையாகும், முதன்மையாக செயற்கை நரம்பியல் நெட்வொர்க்குகளை அடிப்படையாகக் கொண்டது. ஆழ்ந்த கற்றலின் குறிக்கோள், மனித கற்றல் செயல்முறைகளை நெருக்கமாகப் பிரதிபலிக்க வேண்டும். ஆழமான கற்றல் தொழில்நுட்பம் மிகவும் பயனுள்ளதாக இருக்கிறது, மேலும் இது குரல் மூலம் கட்டுப்படுத்தப்படும் பல்வேறு சாதனங்களில் முக்கிய பங்கு வகிக்கிறது - டேப்லெட்டுகள், டிவிக்கள், ஸ்மார்ட்போன்கள், ஃப்ரிட்ஜ்கள் போன்றவை. செயற்கை நரம்பியல் நெட்வொர்க்குகள் பொருட்களைக் கணிக்க ஒரு வகையான வடிகட்டுதல் அமைப்பாகவும் பயன்படுத்தப்படுகின்றன. பயனர் எதிர்காலத்தில் வாங்குவார் என்று. ஆழ்ந்த கற்றல் தொழில்நுட்பம் மருத்துவத் துறையிலும் மிகவும் பரவலாகப் பயன்படுத்தப்படுகிறது. புற்றுநோய் ஆராய்ச்சியாளர்களுக்கு இது மிகவும் முக்கியமானது, ஏனெனில் இது புற்றுநோய் செல்களை தானாகவே கண்டறிய உதவுகிறது.
இப்போது நாம் பேச்சு அங்கீகாரத்திற்கு வருவோம். இந்த தொழில்நுட்பம், நாம் ஏற்கனவே குறிப்பிட்டுள்ளபடி, பேசும் மொழியின் பல்வேறு சொற்கள் மற்றும் சொற்றொடர்களை அடையாளம் காண்பதை நோக்கமாகக் கொண்டுள்ளது. பின்னர் அது அவற்றை இயந்திரம் படிக்கக்கூடிய வடிவமாக மாற்றுகிறது. அடிப்படை நிரல்கள் குறைந்த எண்ணிக்கையிலான முக்கிய சொற்றொடர்களை மட்டுமே அடையாளம் காணும், ஆனால் இன்னும் சில மேம்பட்ட பேச்சு அங்கீகார மென்பொருள் அனைத்து வகையான இயற்கையான பேச்சையும் புரிந்து கொள்ள முடியும். பேச்சு அறிதல் தொழில்நுட்பம் பெரும்பாலான சந்தர்ப்பங்களில் வசதியானது, ஆனால் பதிவின் தரம் போதுமானதாக இல்லாதபோது அல்லது ஸ்பீக்கரை சரியாகப் புரிந்துகொள்வதை கடினமாக்கும் பின்னணி இரைச்சல்கள் இருக்கும்போது சில நேரங்களில் அது சிக்கல்களை எதிர்கொள்கிறது. ஸ்பீக்கருக்கு மிகவும் வலுவான உச்சரிப்பு அல்லது பேச்சுவழக்கு இருக்கும்போது அது இன்னும் சில சிக்கல்களைச் சந்திக்கலாம். பேச்சு அங்கீகாரம் தொடர்ந்து வளர்ந்து வருகிறது, ஆனால் அது இன்னும் சரியாக இல்லை. எல்லாமே வார்த்தைகளைப் பற்றியது அல்ல, இயந்திரங்கள் இன்னும் மனிதர்களால் செய்யக்கூடிய பல விஷயங்களைச் செய்ய முடியாது, உதாரணமாக உடல் மொழியையோ அல்லது ஒருவரின் குரலின் தொனியையோ அவர்களால் புரிந்துகொள்ள முடியவில்லை. இருப்பினும், இந்த மேம்பட்ட அல்காரிதம்களால் அதிக தரவு புரிந்துகொள்ளப்படுவதால், இந்த சவால்களில் சில சிரமம் குறைவதாகத் தெரிகிறது. எதிர்காலம் என்ன கொண்டு வரும் என்று யாருக்குத் தெரியும்? பேச்சு அங்கீகாரம் எங்கு முடிவடையும் என்று கணிப்பது கடினம். எடுத்துக்காட்டாக, கூகுள் டிரான்ஸ்லேட் இன்ஜின்களில் பேச்சு அறிதல் மென்பொருளைச் செயல்படுத்துவதில் கூகுள் ஏற்கனவே நிறைய வெற்றிகளைப் பெற்றுள்ளது, மேலும் இயந்திரம் தொடர்ந்து கற்றுக் கொண்டும், மேம்படுகிறது. ஒருவேளை ஒரு நாள் அவர்கள் மனித மொழிபெயர்ப்பாளர்களை முழுவதுமாக மாற்றுவார்கள். அல்லது ஒருவேளை இல்லை, மனித ஆன்மாவின் ஆழத்தைப் படிக்க முடியாத எந்த இயந்திரத்திற்கும் அன்றாட பேச்சு சூழ்நிலைகள் மிகவும் சிக்கலானவை.
பேச்சு அங்கீகாரத்தை எப்போது பயன்படுத்த வேண்டும்?
இப்போதெல்லாம் கிட்டத்தட்ட அனைவரிடமும் ஸ்மார்ட்போன் அல்லது டேப்லெட் உள்ளது. அந்த சாதனங்களில் பேச்சு அங்கீகாரம் ஒரு பொதுவான அம்சமாகும். ஒரு நபரின் பேச்சை செயலாக மாற்ற அவை பயன்படுத்தப்படுகின்றன. நீங்கள் உங்கள் பாட்டியை அழைக்க விரும்பினால், "பாட்டியை அழைக்கவும்" என்று கட்டளையிட்டால் போதும், உங்கள் தொடர்பு பட்டியல்களைத் தட்டச்சு செய்யாமல் உங்கள் ஸ்மார்ட்போன் ஏற்கனவே எண்ணை டயல் செய்கிறது. இது பேச்சு அங்கீகாரம். அதற்கு மற்றொரு சிறந்த உதாரணம், அலெக்சா அல்லது சிரி. அவர்கள் இந்த அம்சத்தை தங்கள் கணினியில் கடினமாகக் கொண்டுள்ளனர். எதையும் தட்டச்சு செய்யாமல், குரல் மூலம் எதையும் தேடும் விருப்பத்தையும் Google வழங்குகிறது.
இவை அனைத்தும் எவ்வாறு செயல்படுகின்றன என்பதைப் பற்றி இப்போது நீங்கள் ஆர்வமாக இருக்கலாம். சரி, இது வேலை செய்ய, மைக்ரோஃபோன்கள் போன்ற சென்சார்கள் மென்பொருளில் கட்டமைக்கப்பட வேண்டும், இதனால் பேசப்படும் வார்த்தைகளின் ஒலி அலைகள் அங்கீகரிக்கப்பட்டு, பகுப்பாய்வு செய்யப்பட்டு டிஜிட்டல் வடிவத்திற்கு மாற்றப்படும். டிஜிட்டல் தகவல் பின்னர் ஒருவித வார்த்தைகள் மற்றும் வெளிப்பாடுகள் களஞ்சியத்தில் சேமிக்கப்படும் மற்ற தகவல்களுடன் ஒப்பிடப்பட வேண்டும். ஒரு பொருத்தம் இருக்கும் போது மென்பொருள் கட்டளையை அடையாளம் கண்டு அதன்படி செயல்பட முடியும்.
இந்த இடத்தில் குறிப்பிட வேண்டிய மற்றொரு விஷயம் WER (வார்த்தை பிழை விகிதம்) என்று அழைக்கப்படுகிறது. இது ஒரு சூத்திரமாகும், இதில் நீங்கள் பிழை எண்ணை மொத்த வார்த்தைகளுடன் வகுக்கிறீர்கள். எனவே, இதை எளிமையான சொற்களில் வைக்க, இது துல்லியத்துடன் நிறைய செய்ய வேண்டும். குறைந்த WER ஐக் கொண்டிருப்பதே குறிக்கோள், ஏனெனில் பேசும் வார்த்தையின் படியெடுத்தல் மிகவும் துல்லியமானது.
பேச்சு அங்கீகாரம் எப்போதும் இல்லாத அளவுக்கு இப்போது தேவை. நீங்கள் பேசும் வார்த்தையை பதிவுசெய்யப்பட்ட ஆடியோ கோப்பில் இருந்து உரையாக மாற்ற வேண்டும் என்றால், நீங்கள் Gglot க்கு திரும்பலாம். நாங்கள் ஒரு டிரான்ஸ்கிரிப்ஷன் சேவை வழங்குநர், இது நியாயமான விலையில் துல்லியமான டிரான்ஸ்கிரிப்ஷன்களை வழங்குகிறது. எனவே, எங்கள் பயனர் நட்பு இணையதளம் மூலம் தொடர்பு கொள்ள தயங்க வேண்டாம்.