স্পিচ রিকগনিশন আসলে কি?
কন্ঠ সনান্তকরণ
স্পিচ রিকগনিশন সম্পর্কে আপনার যা জানা দরকার
যখন আমরা স্পিচ রিকগনিশন সম্পর্কে কথা বলি, তখন সাধারণত আমরা এমন একটি সফ্টওয়্যারকে বোঝায় যা কথ্য শব্দটিকে চিনতে এবং এটি একটি প্রোগ্রামে লিখে রাখার ক্ষমতা রাখে যাতে শেষ পর্যন্ত আপনার কাছে লিখিত বিন্যাসে বলা সমস্ত কিছুই থাকে। এটি প্রায়শই "স্পিচ-টু-টেক্সট" হিসাবেও উল্লেখ করা হয়। শুরুতে সেই সফ্টওয়্যারটির খুব সীমিত সম্ভাবনা ছিল, যাতে আপনি শুধুমাত্র সীমিত সংখ্যক বাক্যাংশ রূপান্তর করতে পারেন। সময়ের সাথে সাথে, স্পিচ রিকগনিশন সফ্টওয়্যারের পিছনের প্রযুক্তি অনেক উন্নত হয়েছে এবং এটি এখন অনেক বেশি পরিশীলিত, যাতে এটি বিভিন্ন ভাষা এবং এমনকি বিভিন্ন উচ্চারণ চিনতে পারে। তবে অবশ্যই, এই ক্ষেত্রে এখনও কাজ করা দরকার।
এটি লক্ষ্য করাও গুরুত্বপূর্ণ যে বক্তৃতা স্বীকৃতি ভয়েস স্বীকৃতির মতো নয়, যদিও কখনও কখনও লোকেরা একই জিনিসের জন্য দুটি পদ ব্যবহার করে। ভয়েস রিকগনিশন ব্যবহার করা হয় যে ব্যক্তি কথা বলছে তাকে শনাক্ত করার জন্য এবং কী বলা হচ্ছে তা খেয়াল করার জন্য নয়।
বক্তৃতা স্বীকৃতি এবং সম্পর্কিত প্রযুক্তির একটি সংক্ষিপ্ত ইতিহাস
এই নিবন্ধে, আমরা সংক্ষিপ্তভাবে বক্তৃতা স্বীকৃতির উত্থানের পিছনে ইতিহাস এবং প্রযুক্তি ব্যাখ্যা করব।
ডিজিটাল যুগের সূচনা হওয়ার পর থেকেই মানুষের মনে কোনো না কোনোভাবে যন্ত্রের সাথে যোগাযোগ করতে সক্ষম হওয়ার তাগিদ ছিল। প্রথম ধরনের ডিজিটাল কম্পিউটার আবিষ্কৃত হওয়ার পর, অনেক বিজ্ঞানী এবং প্রকৌশলী এই প্রক্রিয়ার মধ্যে কোনো না কোনোভাবে বক্তৃতা স্বীকৃতি কার্যকর করার জন্য বিভিন্ন উপায়ে চেষ্টা করেছেন। এই প্রক্রিয়ার একটি গুরুত্বপূর্ণ বছর ছিল 1962, যখন IBM Shoebox প্রকাশ করেছিল, একটি মৌলিক বক্তৃতা শনাক্তকরণ মেশিন যা সাধারণ গণিত গণনা করতে সক্ষম ছিল। যদি এই প্রোটো-কম্পিউটার ব্যবহারকারী একটি মাইক্রোফোনে কথা বলত, এই মেশিনটি "প্লাস" বা "মাইনাস" এর মতো ছয়টি নিয়ন্ত্রণ শব্দ চিনতে সক্ষম হয়েছিল। সময়ের সাথে সাথে, এর পিছনে প্রযুক্তিটি বিকশিত হয়েছে এবং আজ এটি ভয়েসের মাধ্যমে কম্পিউটারের সাথে যোগাযোগ করা খুব সাধারণ বৈশিষ্ট্য। সিরি বা অ্যালেক্সার মতো অনেক বিখ্যাত স্পিচ রিকগনিশন ইঞ্জিন রয়েছে। এটি মনে রাখা গুরুত্বপূর্ণ যে এই ভয়েস-চালিত ডিভাইসগুলি কৃত্রিম বুদ্ধিমত্তা (AI) এবং মেশিন লার্নিংয়ের উপর নির্ভরশীল।
যখন কৃত্রিম বুদ্ধিমত্তা (AI) উল্লেখ করা হয়, তখন এটি একটি বিজ্ঞান কল্পকাহিনী চলচ্চিত্রের মতো শোনাতে পারে, কিন্তু সত্য যে আজকের দিনে এবং যুগে AI আমাদের বিশ্বে একটি দুর্দান্ত ভূমিকা পালন করে। আসলে, AI ইতিমধ্যেই আমাদের দৈনন্দিন জীবনে খুব উপস্থিত, যেহেতু অনেক প্রোগ্রাম এবং অ্যাপ ইতিমধ্যেই এটি ব্যবহার করে। কিন্তু এটি 20 শতকের শুরুতে বিজ্ঞান কল্পকাহিনী ছিল, যখন শব্দটি আবির্ভূত হয়েছিল। 1950 সালের শেষের দিকে AI এর ধারণাগুলি আরও বিশিষ্ট হয়ে ওঠে এবং অনেক বিজ্ঞানী ও দার্শনিকের আগ্রহের কেন্দ্রবিন্দু ছিল। সেই সময়ে, অ্যালান টুরিং নামে একজন অত্যন্ত উচ্চাভিলাষী ব্রিটিশ গণিতবিদ একটি প্রস্তাব নিয়ে এসেছিলেন যে মেশিনগুলি উপলব্ধ তথ্যের ইনপুটের ভিত্তিতে সমস্যার সমাধান করতে এবং নিজেরাই সিদ্ধান্ত নিতে পারে। সমস্যাটি ছিল যে কম্পিউটারগুলিতে এখনও সেই ডেটা মুখস্থ করার সম্ভাবনা ছিল না, যা কৃত্রিম বুদ্ধিমত্তার বিকাশের জন্য একটি গুরুত্বপূর্ণ পদক্ষেপ। তখন তারা যা করতে পারত তা হল সাধারণ কমান্ড চালানো।
AI এর বিকাশে আরেকটি গুরুত্বপূর্ণ নাম হল জন ম্যাকার্থি, যিনি প্রথম "কৃত্রিম বুদ্ধিমত্তা" শব্দটি তৈরি করেছিলেন। ম্যাকার্থি বলেছিলেন যে AI হল: "বুদ্ধিমান মেশিন তৈরির বিজ্ঞান এবং প্রকৌশল"। এই সংজ্ঞাটি 1956 সালে ডার্টমাউথ কলেজে একটি সেমিনাল কনফারেন্সে প্রকাশ পায়। তারপর থেকে এআই একটি উন্মত্ত গতিতে বিকাশ শুরু করে।
আজ, কৃত্রিম বুদ্ধিমত্তা তার বিভিন্ন আকারে সর্বত্র উপস্থিত। এটি ব্যাপকভাবে গ্রহণে পরিণত হয়েছে, প্রধানত প্রতিদিন বিশ্বব্যাপী আদান-প্রদান করা ডেটার সামগ্রিক পরিমাণ বৃদ্ধির কারণে। এটি উন্নত অ্যালগরিদমগুলিতে ব্যবহৃত হয় এবং এটি স্টোরেজ এবং কম্পিউটিং শক্তিতে উন্নতির জন্ম দিয়েছে। AI অনেক কাজে ব্যবহার করা হয়, যেমন অনুবাদ, ট্রান্সক্রিপশন, বক্তৃতা, মুখ এবং বস্তুর স্বীকৃতি, চিকিৎসা চিত্রের বিশ্লেষণ, প্রাকৃতিক ভাষার প্রক্রিয়াকরণ, বিভিন্ন সামাজিক নেটওয়ার্ক ফিল্টার ইত্যাদি। গ্র্যান্ডমাস্টার গারি কাসপারভ এবং ডিপ ব্লু চেস এআই-এর মধ্যে দাবা ম্যাচের কথা মনে আছে?
কৃত্রিম বুদ্ধিমত্তার আরেকটি অত্যন্ত গুরুত্বপূর্ণ প্রয়োগ হল মেশিন লার্নিং। সংক্ষেপে, এটি এমন কোনও সিস্টেমকে বোঝায় যেগুলির নিজস্ব অভিজ্ঞতার ডাটাবেস থেকে শেখার এবং উন্নত করার ক্ষমতা রয়েছে। এটি নিদর্শনগুলির স্বীকৃতির মাধ্যমে কাজ করে। সিস্টেমের জন্য এটি প্রশিক্ষিত হতে সক্ষম হতে হবে. সিস্টেমের অ্যালগরিদম প্রচুর পরিমাণে ডেটার একটি ইনপুট গ্রহণ করে এবং এক পর্যায়ে এটি সেই ডেটা থেকে নিদর্শনগুলি সনাক্ত করতে সক্ষম হয়। এই প্রক্রিয়ার শেষ লক্ষ্য হল এই কম্পিউটার সিস্টেমগুলিকে কোনো মানুষের হস্তক্ষেপ বা সহায়তার প্রয়োজন ছাড়াই স্বাধীনভাবে শিখতে সক্ষম করা।
মেশিন লার্নিং এর পাশাপাশি আরেকটি বিষয় যা উল্লেখ করা খুবই গুরুত্বপূর্ণ তা হল গভীর শিক্ষা। গভীর শিক্ষার প্রক্রিয়ার অন্যতম গুরুত্বপূর্ণ হাতিয়ার হল তথাকথিত কৃত্রিম নিউরাল নেটওয়ার্ক। এগুলি উন্নত অ্যালগরিদম, মানুষের মস্তিষ্কের গঠন এবং কার্যকারিতার অনুরূপ। যাইহোক, তারা স্থির এবং প্রতীকী, জৈবিক মস্তিষ্কের বিপরীতে যা প্লাস্টিক এবং আরও অ্যানালগ ভিত্তিক। সংক্ষেপে, এই গভীর শিক্ষা হল মেশিন লার্নিংয়ের একটি বিশেষ পদ্ধতি, যা মূলত কৃত্রিম নিউরাল নেটওয়ার্কের উপর ভিত্তি করে। গভীর শিক্ষার লক্ষ্য হল মানুষের শেখার প্রক্রিয়াগুলি ঘনিষ্ঠভাবে প্রতিলিপি করা। ডিপ লার্নিং টেকনোলজি খুবই উপযোগী, এবং এটি ভয়েস - ট্যাবলেট, টিভি, স্মার্টফোন, ফ্রিজ ইত্যাদি দ্বারা নিয়ন্ত্রিত বিভিন্ন ডিভাইসে গুরুত্বপূর্ণ ভূমিকা পালন করে। কৃত্রিম নিউরাল নেটওয়ার্কগুলিও এক ধরনের ফিল্টারিং সিস্টেম হিসাবে ব্যবহৃত হয় যার লক্ষ্য আইটেমগুলির পূর্বাভাস দেওয়া। যা ব্যবহারকারী ভবিষ্যতে কিনবে। গভীর শিক্ষার প্রযুক্তি চিকিৎসা ক্ষেত্রেও ব্যাপকভাবে ব্যবহৃত হয়। এটি ক্যান্সার গবেষকদের জন্য খুবই গুরুত্বপূর্ণ, কারণ এটি স্বয়ংক্রিয়ভাবে ক্যান্সার কোষ সনাক্ত করতে সাহায্য করে।
এখন আমরা স্পিচ রিকগনিশনে ফিরে আসব। এই প্রযুক্তি, যেমনটি আমরা ইতিমধ্যেই উল্লেখ করেছি, কথ্য ভাষার বিভিন্ন শব্দ এবং বাক্যাংশ সনাক্ত করা লক্ষ্য করে। পরে এটি তাদের একটি বিন্যাসে রূপান্তর করে যা মেশিনটি পড়তে সক্ষম। বেসিক প্রোগ্রামগুলি শুধুমাত্র অল্প সংখ্যক মূল বাক্যাংশ সনাক্ত করে, তবে আরও কিছু উন্নত বক্তৃতা শনাক্তকরণ সফ্টওয়্যার সমস্ত ধরণের স্বাভাবিক বক্তৃতা বোঝাতে সক্ষম। বক্তৃতা শনাক্তকরণ প্রযুক্তি বেশিরভাগ ক্ষেত্রেই সুবিধাজনক, তবে এটি কখনও কখনও সমস্যার সম্মুখীন হয় যখন রেকর্ডিংয়ের মান যথেষ্ট ভাল না হয় বা যখন পটভূমিতে শব্দ হয় যা স্পিকারকে সঠিকভাবে বোঝা কঠিন করে তোলে। এটি এখনও কিছু সমস্যার সম্মুখীন হতে পারে যখন স্পিকারের সত্যিই শক্তিশালী উচ্চারণ বা একটি উপভাষা থাকে। বক্তৃতা স্বীকৃতি ক্রমাগত বিকাশ করছে, তবে এটি এখনও পুরোপুরি নিখুঁত নয়। সবকিছুই শব্দের বিষয়ে নয়, মেশিনগুলি এখনও অনেক কিছু করতে সক্ষম নয় যা মানুষ করতে পারে, উদাহরণস্বরূপ তারা শরীরের ভাষা বা কারও কণ্ঠের স্বর বোঝাতে সক্ষম নয়। যাইহোক, যেহেতু এই উন্নত অ্যালগরিদমগুলি দ্বারা আরও ডেটা পাঠোদ্ধার করা হয়, এই চ্যালেঞ্জগুলির মধ্যে কিছু অসুবিধা হ্রাস পায় বলে মনে হয়। ভবিষ্যৎ কি নিয়ে আসবে কে জানে? স্পিচ রিকগনিশন কোথায় শেষ হবে তা অনুমান করা কঠিন। উদাহরণ স্বরূপ, Google ইতিমধ্যেই Google Translate ইঞ্জিনে স্পিচ রিকগনিশন সফ্টওয়্যার বাস্তবায়নে অনেক সাফল্য অর্জন করছে এবং মেশিনটি ক্রমাগত শিখছে এবং বিকাশ করছে। হয়তো একদিন তারা মানব অনুবাদকদের পুরোপুরি প্রতিস্থাপন করবে। বা নাও হতে পারে, দৈনন্দিন বক্তৃতা পরিস্থিতি যে কোনো ধরনের মেশিনের জন্য খুবই জটিল যেটি মানুষের আত্মার গভীরতা পড়তে সক্ষম নয়।
কখন স্পিচ রিকগনিশন ব্যবহার করবেন?
আজকাল প্রায় সবার হাতেই স্মার্টফোন বা ট্যাবলেট রয়েছে। বক্তৃতা শনাক্তকরণ সেই ডিভাইসগুলির একটি সাধারণ বৈশিষ্ট্য। এগুলি একজন ব্যক্তির বক্তব্যকে কর্মে রূপান্তর করতে ব্যবহৃত হয়। আপনি যদি আপনার দাদীকে কল করতে চান, তাহলে আপনার "দাদীকে কল করুন" আদেশ দেওয়া যথেষ্ট এবং আপনার স্মার্টফোন ইতিমধ্যেই আপনার পরিচিতি তালিকার মাধ্যমে টাইপ না করেই নম্বরটি ডায়াল করছে৷ এটি স্পিচ রিকগনিশন। এর আরেকটি ভালো উদাহরণ হল আলেক্সা বা সিরি। তাদের সিস্টেমে এই বৈশিষ্ট্যটি হার্ড-ওয়্যার্ড রয়েছে। Google আপনাকে কিছু টাইপ না করে ভয়েসের মাধ্যমে কিছু অনুসন্ধান করার বিকল্পও দেয়৷
এই সব কিভাবে কাজ করে তা নিয়ে হয়তো আপনি এখন কৌতূহলী। ঠিক আছে, এটি কাজ করার জন্য, মাইক্রোফোনের মতো সেন্সরগুলিকে সফ্টওয়্যারে তৈরি করতে হবে যাতে উচ্চারিত শব্দগুলির শব্দ তরঙ্গগুলি স্বীকৃত হয়, বিশ্লেষণ করা যায় এবং একটি ডিজিটাল ফর্ম্যাটে রূপান্তরিত হয়। তখন ডিজিটাল তথ্যকে অন্যান্য তথ্যের সাথে তুলনা করতে হবে যা কিছু ধরণের শব্দ এবং অভিব্যক্তি ভান্ডারে সংরক্ষণ করা হয়। যখন একটি মিল থাকে তখন সফ্টওয়্যার কমান্ডটি চিনতে পারে এবং সেই অনুযায়ী কাজ করতে পারে।
এই মুহুর্তে আরও একটি জিনিস যা উল্লেখ করা দরকার তা হল তথাকথিত WER (শব্দ ত্রুটির হার)। এটি এমন একটি সূত্র যেখানে আপনি মোট শব্দের সাথে ত্রুটি সংখ্যাকে ভাগ করেন। সুতরাং, এটিকে সহজ ভাষায় বলতে গেলে, এটির নির্ভুলতার সাথে অনেক কিছু করার আছে। লক্ষ্য অবশ্যই একটি কম WER আছে, কারণ এর মানে হল যে কথ্য শব্দের প্রতিলিপি আরও সঠিক।
বক্তৃতা স্বীকৃতি এখন আগের মতোই চাহিদা। আপনি যদি একটি রেকর্ড করা অডিও ফাইল থেকে কথ্য শব্দটিকে টেক্সটে রূপান্তর করতে চান তবে আপনি Gglot-এ যেতে পারেন। আমরা একটি ট্রান্সক্রিপশন পরিষেবা প্রদানকারী যা ন্যায্য মূল্যের জন্য সঠিক প্রতিলিপি অফার করে। সুতরাং, আমাদের ব্যবহারকারী-বান্ধব ওয়েবসাইটের মাধ্যমে যোগাযোগ করতে দ্বিধা করবেন না।