ඇත්තටම කථන හඳුනාගැනීම යනු කුමක්ද?

කථන හඳුනාගැනීම

කථන හඳුනාගැනීම ගැන ඔබ දැනගත යුතු දේ

අපි කථන හඳුනාගැනීම ගැන කතා කරන විට, අපි සාමාන්‍යයෙන් අදහස් කරන්නේ කතා කරන වචනය හඳුනාගෙන එය වැඩසටහනක ලිවීමේ හැකියාව ඇති මෘදුකාංගයකි, එබැවින් අවසානයේ ඔබට ලිඛිත ආකෘතියෙන් කථා කළ සියල්ල තිබේ. එය බොහෝ විට "කථනයෙන් පෙළ" ලෙසද හැඳින්වේ. ආරම්භයේ දී එම මෘදුකාංගයට ඉතා සීමිත හැකියාවන් තිබුණි, එවිට ඔබට සීමිත වාක්‍ය ඛණ්ඩ සංඛ්‍යාවක් පමණක් පරිවර්තනය කළ හැකිය. කාලයත් සමඟ, කථන හඳුනාගැනීමේ මෘදුකාංගය පිටුපස ඇති තාක්ෂණය බොහෝ දියුණු වී ඇති අතර එය විවිධ භාෂා සහ විවිධ උච්චාරණ පවා හඳුනා ගැනීමට හැකි වන පරිදි එය දැන් වඩාත් සංකීර්ණ වී ඇත. නමුත් ඇත්ත වශයෙන්ම, මෙම ක්ෂේත්රය තුළ තවමත් කළ යුතු කාර්යයක් තිබේ.

සමහර විට මිනිසුන් එකම දෙය සඳහා පද දෙක භාවිතා කළද, කථන හඳුනාගැනීම හඬ හඳුනාගැනීම හා සමාන නොවන බව සැලකිල්ලට ගැනීම වැදගත්ය. කටහඬ හඳුනාගැනීම භාවිතා කරන්නේ කතා කරන පුද්ගලයා හඳුනා ගැනීමට මිස කියන දේ සටහන් කිරීමට නොවේ.

කථන හඳුනාගැනීම සහ අදාළ තාක්ෂණය පිළිබඳ කෙටි ඉතිහාසයක්

මෙම ලිපියෙන් අපි කථන හඳුනාගැනීමේ නැගීම පිටුපස ඇති ඉතිහාසය සහ තාක්ෂණය කෙටියෙන් විස්තර කරමු.

ඩිජිටල් යුගයේ ආරම්භයේ සිටම, මිනිසුන්ට කෙසේ හෝ යන්ත්‍ර සමඟ සන්නිවේදනය කිරීමට හැකි විය. පළමු ආකාරයේ ඩිජිටල් පරිගණකයක් සොයා ගැනීමෙන් පසු, බොහෝ විද්‍යාඥයින් සහ ඉංජිනේරුවන් මෙම ක්‍රියාවලියට කථන හඳුනාගැනීම කෙසේ හෝ ක්‍රියාත්මක කිරීමට විවිධ ආකාරවලින් උත්සාහ කර ඇත. මෙම ක්‍රියාවලියේ තීරණාත්මක වසරක් වූයේ 1962, IBM විසින් සරල ගණිත ගණනය කිරීම් කළ හැකි මූලික කථන හඳුනාගැනීමේ යන්ත්‍රයක් වන Shoebox හෙළිදරව් කළ විටය. මෙම ප්‍රොටෝ-පරිගණකයේ පරිශීලකයා මයික්‍රෆෝනයකට කතා කළේ නම්, මෙම යන්ත්‍රයට “ප්ලස්” හෝ “අඩු” වැනි පාලන වචන හයක් දක්වා හඳුනා ගැනීමට හැකි විය. කාලයාගේ ඇවෑමෙන්, මෙය පිටුපස ඇති තාක්ෂණය දියුණු වූ අතර අද වන විට කටහඬින් පරිගණක සමඟ කටයුතු කිරීම ඉතා සුලභ ලක්ෂණයකි. Siri හෝ Alexa වැනි බොහෝ ප්‍රසිද්ධ කථන හඳුනාගැනීමේ යන්ත්‍ර තිබේ. මෙම හඬ-ධාවන උපාංග කෘතිම බුද්ධිය (AI) සහ යන්ත්‍ර ඉගෙනීම මත රඳා පවතින බව සැලකිල්ලට ගැනීම වැදගත්ය.

කෘත්‍රිම බුද්ධිය (AI) සඳහන් කරන විට, එය විද්‍යා ප්‍රබන්ධ චිත්‍රපටයක යමක් සේ පෙනෙන්නට පුළුවන, නමුත් සත්‍යය නම් වර්තමාන යුගයේ දී AI අපගේ ලෝකය තුළ විශාල කාර්යභාරයක් ඉටු කරන බවයි. ඇත්ත වශයෙන්ම, බොහෝ වැඩසටහන් සහ යෙදුම් දැනටමත් එය භාවිතා කරන බැවින්, AI අපගේ එදිනෙදා ජීවිතයේදී දැනටමත් පවතී. නමුත් එය විද්‍යා ප්‍රබන්ධයක් වූයේ 20 වැනි සියවසේ ආරම්භයේදී, එම යෙදුම මතු වූ විටය. 1950 අගභාගයේදී AI හි සංකල්ප වඩාත් ප්‍රමුඛ වූ අතර බොහෝ විද්‍යාඥයින්ගේ සහ දාර්ශනිකයන්ගේ අවධානයට යොමු විය. එකල, ඉතා අභිලාෂකාමී බ්‍රිතාන්‍ය ගණිතඥයෙකු වූ ඇලන් ටියුරින්ග්, පවතින තොරතුරු ඇතුළත් කිරීම් මත පදනම්ව යන්ත්‍රවලට ගැටලු විසඳා ගත හැකි අතර තීරණ තනිවම ගත හැකි බවට යෝජනාවක් ඉදිරිපත් කළේය. ගැටලුව වූයේ කෘතිම බුද්ධිය වර්ධනය කිරීමේ තීරණාත්මක පියවරක් වන එම දත්ත මතක තබා ගැනීමේ හැකියාව තවමත් පරිගණකවලට නොතිබීමයි. එදා ඔවුන්ට කළ හැකි වූයේ සරල විධාන ක්‍රියාත්මක කිරීම පමණි.

AI සංවර්ධනයේ තවත් වැදගත් නමක් වන්නේ "කෘතිම බුද්ධිය" යන යෙදුම මුලින්ම නිර්මාණය කළ ජෝන් මැකාති ය. මැකාති ප්‍රකාශ කළේ AI යනු: “බුද්ධිමත් යන්ත්‍ර සෑදීමේ විද්‍යාව සහ ඉංජිනේරු විද්‍යාව” බවයි. මෙම නිර්වචනය 1956 දී Dartmouth විද්‍යාලයේ පැවති සම්මන්ත්‍රණයකදී අනාවරණය විය. එතැන් සිට AI උමතු වේගයකින් වර්ධනය වීමට පටන් ගත්තේය.

අද වන විට කෘත්‍රිම බුද්ධිය එහි විවිධ ස්වරූපයෙන් සෑම තැනකම පවතී. එය මහා පරිමාණයෙන් දරුකමට හදා ගැනීම දක්වා වර්ධනය වී ඇත, ප්‍රධාන වශයෙන් සෑම දිනකම ලොව පුරා හුවමාරු වන සමස්ත දත්ත පරිමාවේ වැඩි වීම හේතුවෙන්. එය උසස් ඇල්ගොරිතම වල භාවිතා වන අතර, එය ගබඩා සහ පරිගණක බලය වැඩිදියුණු කිරීමට හේතු විය. AI බොහෝ අරමුණු සඳහා භාවිතා වේ, උදාහරණයක් ලෙස පරිවර්තනය, පිටපත් කිරීම, කථනය, මුහුණ සහ වස්තු හඳුනා ගැනීම, වෛද්‍ය රූප විශ්ලේෂණය, ස්වාභාවික භාෂා සැකසීම, විවිධ සමාජ ජාල පෙරහන් සහ යනාදිය. ග්‍රෑන්ඩ් මාස්ටර් ගැරී කැස්පරොව් සහ ඩීප් බ්ලූ චෙස් ඒඅයි අතර චෙස් තරගය මතකද?

මාතෘකා රහිත 7 1

යන්ත්‍ර ඉගෙනීම කෘතිම බුද්ධියේ තවත් ඉතා වැදගත් යෙදුමකි. කෙටියෙන් කිවහොත්, එය තමන්ගේම අත්දැකීම් දත්ත ගබඩාවෙන් ඉගෙන ගැනීමට සහ වැඩිදියුණු කිරීමට හැකියාව ඇති ඕනෑම පද්ධතියකට යොමු කරයි. මෙය ක්‍රියාත්මක වන්නේ රටා හඳුනාගැනීම මගිනි. පද්ධතියට එය කිරීමට නම් එය පුහුණු කළ හැකි විය යුතුය. පද්ධතියේ ඇල්ගොරිතමයට විශාල දත්ත ප්‍රමාණයක ආදානයක් ලැබෙන අතර එක් අවස්ථාවක එම දත්ත වලින් රටා හඳුනා ගැනීමට එය සමත් වේ. මෙම ක්‍රියාවලියේ අවසාන ඉලක්කය වන්නේ කිසිදු මානව මැදිහත්වීමක් හෝ ආධාරයක් අවශ්‍ය නොවී, මෙම පරිගණක පද්ධති ස්වාධීනව ඉගෙනීමට හැකියාව ලබා දීමයි.

යන්ත්‍ර ඉගෙනීම සමඟ සඳහන් කළ යුතු තවත් වැදගත් කරුණක් නම් ගැඹුරු ඉගෙනීමයි. ගැඹුරු ඉගෙනීමේ ක්‍රියාවලියේ වැදගත්ම මෙවලමක් වන්නේ ඊනියා කෘතිම ස්නායුක ජාල ය. ඒවා මිනිස් මොළයේ ව්‍යුහයට හා ක්‍රියාකාරීත්වයට සමාන දියුණු ඇල්ගොරිතම වේ. කෙසේ වෙතත්, ඒවා ස්ථිතික සහ සංකේතාත්මක ය, ජීව විද්‍යාත්මක මොළය මෙන් නොව ප්ලාස්ටික් සහ වඩා ප්‍රතිසම පදනම් වේ. කෙටියෙන් කිවහොත්, මෙම ගැඹුරු ඉගෙනීම යන්ත්‍ර ඉගෙනීමේ විශේෂිත ක්‍රමයකි, මූලික වශයෙන් කෘතිම ස්නායුක ජාල මත පදනම් වේ. ගැඹුරු ඉගෙනීමේ පරමාර්ථය වන්නේ මානව ඉගෙනුම් ක්‍රියාවලීන් සමීපව අනුකරණය කිරීමයි. ගැඹුරු ඉගෙනුම් තාක්‍ෂණය ඉතා ප්‍රයෝජනවත් වන අතර, එය කටහඬ මගින් පාලනය වන විවිධ උපාංගවල වැදගත් කාර්යභාරයක් ඉටු කරයි - ටැබ්ලට්, ටීවී, ස්මාර්ට් ෆෝන්, ෆ්‍රිජ් යනාදී. කෘත්‍රිම ස්නායුක ජාල අයිතම පුරෝකථනය කිරීම අරමුණු කරගත් පෙරහන පද්ධතියක් ලෙසද භාවිතා කරයි. පරිශීලකයා අනාගතයේදී මිලදී ගනු ඇති බව. ගැඹුරු ඉගෙනීමේ තාක්ෂණය වෛද්‍ය ක්ෂේත්‍රයේ ද බහුලව භාවිතා වේ. පිළිකා පර්යේෂකයන්ට එය ඉතා වැදගත් වේ, එය පිළිකා සෛල ස්වයංක්‍රීයව හඳුනා ගැනීමට උපකාරී වේ.

දැන් අපි නැවත කථන හඳුනාගැනීම වෙත පැමිණෙමු. මෙම තාක්‍ෂණය, අප දැනටමත් සඳහන් කර ඇති පරිදි, කථන භාෂාවේ විවිධ වචන සහ වාක්‍ය ඛණ්ඩ හඳුනා ගැනීම අරමුණු කරයි. පසුව එය යන්ත්‍රයට කියවිය හැකි ආකෘතියක් බවට පරිවර්තනය කරයි. මූලික වැඩසටහන් මගින් ප්‍රධාන වාක්‍ය ඛණ්ඩ කුඩා සංඛ්‍යාවක් පමණක් හඳුනා ගනී, නමුත් සමහර වඩාත් දියුණු කථන හඳුනාගැනීමේ මෘදුකාංගවලට සියලු ආකාරයේ ස්වාභාවික කථන විකේතනය කළ හැකිය. කථන හඳුනාගැනීමේ තාක්‍ෂණය බොහෝ අවස්ථාවන්හිදී පහසු වේ, නමුත් පටිගත කිරීමේ ගුණාත්මකභාවය ප්‍රමාණවත් නොවන විට හෝ කථිකයා නිසි ලෙස තේරුම් ගැනීමට අපහසු පසුබිම් ශබ්ද ඇති විට එය සමහර විට ගැටළු වලට මුහුණ දෙයි. කථිකයාට සැබවින්ම ප්‍රබල උච්චාරණයක් හෝ උපභාෂාවක් ඇති විට එය තවමත් ගැටළු වලට මුහුණ දීමට සිදු විය හැක. කථන හඳුනාගැනීම නිරන්තරයෙන් වර්ධනය වෙමින් පවතී, නමුත් එය තවමත් පරිපූර්ණ නොවේ. සෑම දෙයක්ම වචන ගැන නොවේ, යන්ත්‍රවලට තවමත් මිනිසුන්ට කළ හැකි බොහෝ දේ කිරීමට හැකියාවක් නැත, උදාහරණයක් ලෙස ශරීර භාෂාව හෝ යමෙකුගේ කටහඬ තේරුම් ගැනීමට ඔවුන්ට නොහැක. කෙසේ වෙතත්, මෙම උසස් ඇල්ගොරිතම මගින් වැඩි දත්ත විකේතනය කරන බැවින්, මෙම අභියෝගවලින් සමහරක් දුෂ්කරතා අඩු වන බව පෙනේ. අනාගතය ගෙන එන්නේ කුමක්දැයි කවුද දන්නේ? කථන හඳුනාගැනීම අවසන් වන්නේ කොතැනකදැයි අනාවැකි කීම දුෂ්කර ය. උදාහරණයක් ලෙස, ගූගල් පරිවර්තන එන්ජින්වල කථන හඳුනාගැනීමේ මෘදුකාංගය ක්‍රියාත්මක කිරීමේදී ගූගල් දැනටමත් විශාල සාර්ථකත්වයක් ලබා ඇති අතර යන්ත්‍රය නිරන්තරයෙන් ඉගෙන ගනිමින් සහ සංවර්ධනය වෙමින් පවතී. සමහරවිට දවසක ඔවුන් මානව පරිවර්තකයන් සම්පූර්ණයෙන්ම ආදේශ කරනු ඇත. එසේත් නැතිනම්, මිනිස් ආත්මයේ ගැඹුර කියවීමට නොහැකි ඕනෑම ආකාරයක යන්ත්‍රයකට එදිනෙදා කථන තත්වයන් ඉතා සංකීර්ණ වේ.

කථන හඳුනාගැනීම භාවිතා කළ යුත්තේ කවදාද?

වර්තමානයේ සෑම කෙනෙකුටම පාහේ ස්මාර්ට් ජංගම දුරකතනයක් හෝ ටැබ්ලටයක් තිබේ. කථන හඳුනාගැනීම එම උපාංගවල පොදු ලක්ෂණයකි. පුද්ගලයෙකුගේ කථාව ක්‍රියාවක් බවට පරිවර්තනය කිරීමට ඒවා භාවිතා කරයි. ඔබට ඔබේ ආච්චි ඇමතීමට අවශ්‍ය නම්, ඔබ "ආච්චි අමතන්න" අණ කිරීම ප්‍රමාණවත් වන අතර ඔබගේ සම්බන්ධතා ලැයිස්තු හරහා ටයිප් කිරීමකින් තොරව ඔබගේ ස්මාර්ට් ජංගම දුරකථනය දැනටමත් අංකය අමතා ඇත. මෙය කථන හඳුනාගැනීමයි. එයට තවත් හොඳ උදාහරණයක් වන්නේ ඇලෙක්සා හෝ සිරි ය. ඔවුන්ගේ පද්ධතියේ දෘඩ රැහැන්ගත මෙම අංගය ද ඇත. Google ඔබට කිසිවක් ටයිප් නොකර, කටහඬින් ඕනෑම දෙයක් සෙවීමේ විකල්පය ද ලබා දෙයි.

මාතෘකා රහිත 8 1

මේ සියල්ල ක්‍රියාත්මක වන ආකාරය ගැන ඔබ දැන් කුතුහලයෙන් සිටිනවා විය හැකිය. හොඳයි, එය ක්‍රියාත්මක වීමට නම්, කතා කරන වචනවල ශබ්ද තරංග හඳුනාගෙන, විශ්ලේෂණය කර ඩිජිටල් ආකෘතියකට පරිවර්තනය වන පරිදි මයික්‍රොෆෝන වැනි සංවේදක මෘදුකාංගය තුළට ගොඩනගා ගත යුතුය. එවිට ඩිජිටල් තොරතුරු යම් ආකාරයක වචන සහ ප්‍රකාශන ගබඩාවක ගබඩා කර ඇති වෙනත් තොරතුරු සමඟ සැසඳිය යුතුය. ගැලපීමක් ඇති වූ විට මෘදුකාංගයට විධානය හඳුනාගෙන ඒ අනුව ක්‍රියා කළ හැකිය.

මේ අවස්ථාවේ සඳහන් කළ යුතු තවත් දෙයක් නම් ඊනියා WER (වචන දෝෂ අනුපාතය) ය. මෙය සූත්‍රයකි, ඔබ දෝෂ අංකය වචනවල එකතුවෙන් බෙදයි. එබැවින්, එය සරල වචනවලින් කිවහොත්, එය නිරවද්යතාව සමඟ බොහෝ දේ සම්බන්ධ වේ. ඉලක්කය වන්නේ අඩු WER අගයක් තිබීමයි, මන්ද මින් අදහස් වන්නේ කථන වචනයේ පිටපත් කිරීම වඩාත් නිවැරදි බවයි.

කථන හඳුනාගැනීම දැන් වෙන කවරදාටත් වඩා ඉල්ලුමක් පවතී. ඔබට කතා කරන වචනය පටිගත කළ ශ්‍රව්‍ය ගොනුවක් කියමු පෙළට පරිවර්තනය කිරීමට අවශ්‍ය නම්, ඔබට Gglot වෙත හැරිය හැක. අපි සාධාරණ මිලකට නිවැරදි පිටපත් ලබා දෙන පිටපත් කිරීමේ සේවා සපයන්නා වේ. එබැවින්, අපගේ පරිශීලක-හිතකාමී වෙබ් අඩවිය හරහා සම්බන්ධ වීමට පසුබට නොවන්න.