स्पीच रिकग्निसनमा आर्टिफिसियल इन्टेलिजेन्स र मेसिन लर्निङको भूमिका

स्पीच रिकग्निसनमा आर्टिफिसियल इन्टेलिजेन्स र मेसिन लर्निङको भूमिका

लामो समयको लागि, मानिसहरू मेशिनहरूसँग कुरा गर्न सक्षम हुन चाहन्थे। उनीहरूले कम्प्युटर बनाउन थालेदेखि नै वैज्ञानिक र इन्जिनियरहरूले वाक् पहिचानलाई प्रक्रियामा समावेश गर्ने प्रयास गरेका छन्। सन् १९६२ मा, IBM ले Shoebox, एक वाक् पहिचान मेसिन प्रस्तुत गर्‍यो जसले सरल गणित गणना गर्न सक्छ। यो अभिनव यन्त्रले “०” देखि “९” सम्मका दश अङ्कहरू सहित १६ बोलिने शब्दहरूलाई पहिचान गरी प्रतिक्रिया दियो। जब संख्या र आदेश शब्दहरू जस्तै "प्लस," "माइनस" र "कुल" बोलिन्थ्यो, शूबक्सले सरल अंकगणितीय समस्याहरूको जवाफहरू गणना गर्न र छाप्न थप गर्ने मेसिनलाई निर्देशन दियो। Shoebox लाई माइक्रोफोनमा बोलेर सञ्चालन गरिएको थियो, जसले आवाजलाई विद्युतीय आवेगहरूमा रूपान्तरण गर्‍यो। एक नाप्ने सर्किटले यी आवेगहरूलाई विभिन्न प्रकारका ध्वनिहरू अनुसार वर्गीकृत गर्‍यो र रिले प्रणाली मार्फत संलग्न जोड्ने मेसिनलाई सक्रिय गर्यो।

समयको साथ, यो प्रविधिको विकास भयो र आज हामी मध्ये धेरैले नियमित रूपमा आवाजद्वारा कम्प्युटरहरूसँग अन्तरक्रिया गर्छौं। आज सबैभन्दा लोकप्रिय भ्वाइस सहायकहरू अमेजन द्वारा एलेक्सा, एप्पल द्वारा सिरी, गुगल सहायक र माइक्रोसफ्ट द्वारा कोर्टाना हुन्। यी सहायकहरूले आदेश वा प्रश्नहरूमा आधारित व्यक्तिको लागि कार्य वा सेवाहरू गर्न सक्छन्। तिनीहरू मानव बोलीको व्याख्या गर्न र संश्लेषित आवाजहरू मार्फत प्रतिक्रिया दिन सक्षम छन्। प्रयोगकर्ताहरूले आफ्ना सहायकहरूलाई प्रश्नहरू सोध्न सक्छन्, भ्वाइस मार्फत गृह स्वचालन यन्त्रहरू र मिडिया प्लेब्याकहरू नियन्त्रण गर्न सक्छन्, र मौखिक आदेशहरू सहित इमेल, कार्य सूचीहरू, र पात्रोहरू जस्ता अन्य आधारभूत कार्यहरू व्यवस्थापन गर्न सक्छन्। हामीले यी आवाज-संचालित यन्त्रहरू जति धेरै प्रयोग गर्छौं, उति धेरै हामी बन्छौं। आर्टिफिसियल इन्टेलिजेन्स (एआई) र मेसिन लर्निङमा निर्भर।

कृत्रिम बुद्धिमत्ता (AI)

1

जब तपाइँ कृत्रिम बुद्धिमत्ता (AI) भन्नुहुन्छ, धेरै मानिसहरूले सोच्न सक्छन् कि तपाइँ विज्ञान कथाको बारेमा कुरा गर्दै हुनुहुन्छ, यद्यपि AI हाम्रो दैनिक जीवनमा धेरै सम्मिलित छ। वास्तवमा, यो दशकौं देखि भएको छ। तर सत्य के हो भने, यो साँच्चै विज्ञान कथा थियो कि 20 औं शताब्दीको सुरुमा जनतालाई कृत्रिम रूपमा बौद्धिक मानव जस्तै रोबोटहरू परिचित गराइयो। ५० को दशकमा एआईका अवधारणाहरू वैज्ञानिक र दार्शनिकहरूको चासोको केन्द्रबिन्दुमा थपिए। त्यस समयमा युवा ब्रिटिश गणितज्ञ एलन ट्युरिङले सुझाव दिए कि मेसिनहरूले (मानिसहरूले जस्तै) समस्याहरू समाधान गर्न र उपलब्ध जानकारीको आधारमा निर्णयहरू गर्न नसक्ने कुनै कारण छैन। तर त्यस समयमा, कम्प्यूटरहरूमा स्मरण गर्ने सम्भावना थिएन जुन बुद्धिको लागि कुञ्जी हो। तिनीहरूले गरेको सबै आदेशहरू कार्यान्वयन थियो। तर अझै, यो एलन ट्युरिङ थियो जसले कृत्रिम बुद्धिमत्ताको आधारभूत लक्ष्य र दृष्टि स्थापित गर्यो।

AI को पिताको रूपमा व्यापक रूपमा मान्यता प्राप्त जोन म्याकार्थी हुन् जसले आर्टिफिसियल इन्टेलिजेन्स शब्दको निर्माण गरेका थिए। उनको लागि एआई थियो: "बुद्धिमान मेसिनहरू बनाउने विज्ञान र इन्जिनियरिङ"। यो परिभाषा 1956 मा डार्टमाउथ कलेजको सम्मेलनमा प्रस्तुत गरिएको थियो र यसले एआई अनुसन्धानको सुरुवातलाई संकेत गर्यो। त्यसबेलादेखि एआई फस्ट्यो।

आधुनिक संसारमा कृत्रिम बुद्धिमत्ता सर्वव्यापी छ। यो बढेको डाटा भोल्युम, उन्नत एल्गोरिदम, र कम्प्युटिङ पावर र भण्डारणमा सुधारहरूको लागि थप लोकप्रिय भएको छ। प्रायः एआई अनुप्रयोग बौद्धिक कार्यहरूसँग जोडिएको छ। हामी अनुवाद, वस्तु, अनुहार र बोली पहिचान, विषय पत्ता लगाउने, मेडिकल छवि विश्लेषण, प्राकृतिक भाषा प्रशोधन, सामाजिक सञ्जाल फिल्टरिङ, चेस खेल्ने आदिका लागि AI प्रयोग गर्छौं।

मेसिन लर्निङ

मेसिन लर्निङ कृत्रिम बुद्धिमत्ताको प्रयोग हो र यसले आफ्नै अनुभवबाट सुधार गर्ने क्षमता भएका प्रणालीहरूलाई जनाउँछ। यहाँ सबैभन्दा महत्त्वपूर्ण कुरा यो हो कि प्रणालीलाई ढाँचाहरू कसरी पहिचान गर्ने भनेर जान्न आवश्यक छ। यो गर्न सक्षम हुन प्रणालीलाई प्रशिक्षित गर्न आवश्यक छ: एल्गोरिथ्मले ठूलो मात्रामा डाटा फिड गर्दछ त्यसैले केहि बिन्दुमा यो ढाँचाहरू पहिचान गर्न सक्षम हुन्छ। मानव हस्तक्षेप वा सहायता बिना कम्प्युटरहरूलाई स्वचालित रूपमा सिक्न अनुमति दिनु लक्ष्य हो।

मेसिन लर्निङको बारेमा कुरा गर्दा, यो गहिरो शिक्षा उल्लेख गर्न महत्त्वपूर्ण छ। गहिरो सिकाइमा प्रयोग हुने मुख्य औजारहरू मध्ये एउटा कृत्रिम न्यूरल नेटवर्कहरू हुन् भनी सुरु गरौं। ती एल्गोरिदमहरू हुन् जुन मस्तिष्कको संरचना र कार्यबाट प्रेरित हुन्छन्, यद्यपि तिनीहरू स्थिर र प्रतीकात्मक हुन्छन्, र जैविक मस्तिष्क जस्तो प्लास्टिक र एनालग होइन। त्यसोभए, गहिरो शिक्षा कृत्रिम तंत्रिका नेटवर्कमा आधारित मेसिन लर्निङको एक विशेष रूप हो जसको लक्ष्य भनेको मानिसले सिक्ने तरिकालाई नक्कल गर्नु हो र यसले मेसिनलाई सिकाउनका लागि प्रोग्रामरको लागि धेरै संख्यामा रहेका ढाँचाहरू फेला पार्ने उत्कृष्ट उपकरणको रूपमा काम गर्दछ। पछिल्ला केही वर्षहरूमा चालकविहीन कारहरू र तिनीहरूले हाम्रो जीवनलाई कसरी परिवर्तन गर्न सक्छन् भन्ने बारेमा धेरै कुराहरू भएका छन्। गहिरो सिकाइ प्रविधि यहाँको कुञ्जी हो, किनभने यसले कारलाई फायर हाइड्रन्टबाट पैदल यात्रीलाई छुट्याउन वा रातो बत्ती चिन्न सक्षम पारेर दुर्घटनाहरू कम गर्छ। डिप लर्निङ टेक्नोलोजीले ट्याब्लेट, फोन, फ्रिज, टिभी आदि जस्ता यन्त्रहरूमा आवाज नियन्त्रणमा पनि मुख्य भूमिका खेल्छ। ई-वाणिज्य कम्पनीहरूले प्रायः कृत्रिम तंत्रिका नेटवर्कहरूलाई फिल्टरिङ प्रणालीको रूपमा प्रयोग गर्छन् जसले प्रयोगकर्ताले चाहेको वस्तुहरू भविष्यवाणी गर्न र देखाउने प्रयास गर्दछ। किन्नुहोस्। मेडिकल क्षेत्रमा पनि डीप लर्निङ टेक्नोलोजी प्रयोग गरिन्छ। यसले क्यान्सर अनुसन्धानकर्ताहरूलाई स्वचालित रूपमा क्यान्सर कोशिकाहरू पत्ता लगाउन मद्दत गर्दछ र यसरी क्यान्सर उपचारमा ठूलो प्रगति प्रतिनिधित्व गर्दछ।

बोली पहिचान

स्पीच रिकग्निसन टेक्नोलोजीले बोल्ने भाषाका शब्दहरू र वाक्यांशहरू पहिचान गर्न र तिनीहरूलाई मेसिनको लागि पढ्न योग्य ढाँचामा रूपान्तरण गर्न कार्य गर्दछ। जबकि केही कार्यक्रमहरूले सीमित संख्यामा वाक्यांशहरू मात्र पहिचान गर्न सक्छन्, केही थप परिष्कृत वाक् पहिचान कार्यक्रमहरूले प्राकृतिक बोली बुझाउन सक्छन्।

त्यहाँ पार गर्न अवरोधहरू छन्?

सुविधाजनक हुँदा, वाक् पहिचान प्रविधि सधैं सहज रूपमा जाँदैन र यसले अझै पनि काम गर्नका लागि केही समस्याहरू छन्, किनकि यो लगातार विकसित भइरहेको छ। उत्पन्न हुन सक्ने समस्याहरूमा निम्न समावेश हुन सक्छ: रेकर्डिङको गुणस्तर अपर्याप्त हुन सक्छ, पृष्ठभूमिमा आवाजहरू हुन सक्छ जसले वक्तालाई बुझ्न गाह्रो बनाउँदछ, साथै वक्ताको वास्तवमै कडा उच्चारण वा बोली हुन सक्छ (के तपाईंले कहिल्यै Geordie बोली सुन्नुभयो?), आदि।

बोली पहिचान धेरै विकसित भएको छ, तर यो अझै पनि सिद्ध हुन टाढा छ। सबै शब्दहरू मात्र होइन, मेसिनले अझै पनि मानिसहरूले गर्न सक्ने धेरै कुराहरू गर्न सक्दैन: तिनीहरूले शरीरको भाषा पढ्न सक्दैनन् वा कसैको आवाजमा व्यंग्यात्मक स्वर चिन्न सक्दैनन्। मानिसहरू प्रायः प्रत्येक शब्दलाई उचित तरिकाले उच्चारण गर्दैनन् र तिनीहरूले केही शब्दहरू छोटो पार्ने गर्छन्। उदाहरणका लागि, छिटो र अनौपचारिक रूपमा बोल्दा, नेटिभ अङ्ग्रेजी स्पिकरहरू प्रायः "going to" जस्तै "gonna" उच्चारण गर्छन्। माथिका सबैले, मेशिनहरूका लागि अवरोधहरू निम्त्याउँछ जुन तिनीहरूले पार गर्न खोजिरहेका छन्, तर तिनीहरूको अगाडि अझै लामो बाटो छ। यो हाइलाइट गर्न महत्त्वपूर्ण छ कि अधिक र अधिक डेटा ती विशिष्ट एल्गोरिदमहरूमा फिड हुन्छन्; चुनौतीहरु कम हुने देखिन्छ । स्वचालित वाक् पहिचानको भविष्य उज्ज्वल देखिन्छ।

आवाज-संचालित प्रयोगकर्ता इन्टरफेसहरू बढ्दो रूपमा उपलब्ध र घरपरिवारहरूमा लोकप्रिय भइरहेका छन्। यो प्रविधिको अर्को प्लेटफर्म पनि बन्न सक्छ।

Gglot ले स्वचालित ट्रान्सक्रिप्शन सेवाहरूको रूपमा स्वचालित वाक् पहिचान प्रदान गर्दछ - हामी भाषणहरूलाई पाठमा रूपान्तरण गर्छौं। हाम्रो सेवा प्रयोग गर्न सरल छ, यसले तपाईंलाई धेरै खर्च गर्दैन र यो छिट्टै सम्पन्न हुनेछ!