स्पीच रिकग्निशन में आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की भूमिका
स्पीच रिकग्निशन में आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की भूमिका
लंबे समय से लोग चाहते थे कि वे मशीनों से बात कर सकें। जब से उन्होंने कंप्यूटर बनाना शुरू किया है, वैज्ञानिकों और इंजीनियरों ने इस प्रक्रिया में वाक् पहचान को शामिल करने की कोशिश की है। वर्ष 1962 में, IBM ने Shoebox पेश किया, एक भाषण पहचान मशीन जो सरल गणित गणना कर सकती थी। इस अभिनव उपकरण ने 16 बोले गए शब्दों को पहचाना और उनका जवाब दिया, जिसमें "0" से "9." के दस अंक शामिल हैं। जब "प्लस," "माइनस" और "टोटल" जैसे नंबर और कमांड शब्द बोले गए, तो शूबॉक्स ने एक जोड़ने वाली मशीन को सरल अंकगणितीय समस्याओं के उत्तरों की गणना और प्रिंट करने का निर्देश दिया। शूबॉक्स को माइक्रोफोन में बोलकर संचालित किया जाता था, जो आवाज की आवाज को विद्युत आवेगों में परिवर्तित करता था। एक मापने वाले सर्किट ने इन आवेगों को विभिन्न प्रकार की ध्वनियों के अनुसार वर्गीकृत किया और एक रिले सिस्टम के माध्यम से संलग्न जोड़ने वाली मशीन को सक्रिय किया।
समय के साथ, यह तकनीक विकसित हुई और आज हम में से कई लोग बिना कंप्यूटर के आवाज से नियमित रूप से बातचीत करते हैं। आज सबसे लोकप्रिय वॉयस असिस्टेंट एलेक्सा द्वारा अमेज़ॅन, सिरी द्वारा ऐप्पल, गूगल असिस्टेंट और माइक्रोसॉफ्ट द्वारा कॉर्टाना हैं। ये सहायक कमांड या प्रश्नों के आधार पर किसी व्यक्ति के लिए कार्य या सेवाएं कर सकते हैं। वे मानव भाषण की व्याख्या करने और संश्लेषित आवाजों के माध्यम से प्रतिक्रिया करने में सक्षम हैं। उपयोगकर्ता अपने सहायकों से सवाल पूछ सकते हैं, आवाज के माध्यम से होम ऑटोमेशन उपकरणों और मीडिया प्लेबैक को नियंत्रित कर सकते हैं, और ईमेल, टू-डू सूचियों और मौखिक आदेशों के साथ कैलेंडर जैसे अन्य बुनियादी कार्यों का प्रबंधन कर सकते हैं। जितना अधिक हम इन आवाज-संचालित उपकरणों का उपयोग करते हैं, उतना ही हम बन जाते हैं आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग पर निर्भर है।
आर्टिफिशियल इंटेलिजेंस (एआई)
जब आप आर्टिफिशियल इंटेलिजेंस (एआई) कहते हैं, तो बहुत से लोग सोच सकते हैं कि आप साइंस फिक्शन के बारे में बात कर रहे हैं, भले ही एआई हमारे रोजमर्रा के जीवन में बहुत अंतर्निहित है। दरअसल, यह दशकों से है। लेकिन सच्चाई यह है कि यह वास्तव में विज्ञान कथा थी कि 20 वीं शताब्दी की शुरुआत में जनता को कृत्रिम रूप से बुद्धिमान मानव जैसे रोबोट से परिचित कराया गया था। 50 के दशक में एआई की अवधारणाएं वैज्ञानिकों और दार्शनिकों की रुचि के केंद्र में अधिक से अधिक आईं। उस समय युवा ब्रिटिश गणितज्ञ एलन ट्यूरिंग ने सुझाव दिया था कि ऐसा कोई कारण नहीं है कि मशीनें (मनुष्यों की तरह) समस्याओं का समाधान नहीं कर सकतीं और उपलब्ध जानकारी के आधार पर निर्णय नहीं ले सकतीं। लेकिन उस समय, कंप्यूटर में याद रखने की संभावना नहीं थी, जो कि बुद्धिमत्ता की कुंजी है। उन्होंने जो कुछ किया वह कमांड निष्पादित करना था। लेकिन फिर भी, यह एलन ट्यूरिंग ही थे जिन्होंने कृत्रिम बुद्धिमत्ता के मौलिक लक्ष्य और दृष्टि को स्थापित किया।
एआई के पिता के रूप में व्यापक रूप से पहचाने जाने वाले जॉन मैकार्थी हैं जिन्होंने कृत्रिम बुद्धिमत्ता शब्द गढ़ा। उनके लिए AI था: "बुद्धिमान मशीन बनाने का विज्ञान और इंजीनियरिंग"। यह परिभाषा 1956 में डार्टमाउथ कॉलेज में एक सम्मेलन में प्रस्तुत की गई थी और इसने एआई अनुसंधान की शुरुआत का संकेत दिया था। तभी से एआई फला-फूला।
आधुनिक दुनिया में कृत्रिम बुद्धि सर्वव्यापी है। यह डेटा की मात्रा में वृद्धि, उन्नत एल्गोरिदम, और कंप्यूटिंग शक्ति और भंडारण में सुधार के लिए और अधिक लोकप्रिय हो गया है। ज्यादातर AI एप्लिकेशन बौद्धिक कार्यों से जुड़ा होता है। हम अनुवाद, वस्तु, चेहरे और वाक् पहचान, विषय का पता लगाने, चिकित्सा छवि विश्लेषण, प्राकृतिक भाषा प्रसंस्करण, सामाजिक नेटवर्क फ़िल्टरिंग, शतरंज खेलने आदि के लिए एआई का उपयोग करते हैं।
यंत्र अधिगम
मशीन लर्निंग कृत्रिम बुद्धिमत्ता का एक अनुप्रयोग है और यह उन प्रणालियों को संदर्भित करता है जिनमें अपने स्वयं के अनुभव से सुधार करने की क्षमता होती है। यहां सबसे महत्वपूर्ण बात यह है कि सिस्टम को यह जानने की जरूरत है कि पैटर्न को कैसे पहचाना जाए। ऐसा करने में सक्षम होने के लिए सिस्टम को प्रशिक्षित करने की आवश्यकता है: एल्गोरिदम बड़ी मात्रा में डेटा फ़ीड करता है ताकि किसी बिंदु पर यह पैटर्न की पहचान करने में सक्षम हो। लक्ष्य मानव हस्तक्षेप या सहायता के बिना कंप्यूटरों को स्वचालित रूप से सीखने की अनुमति देना है।
मशीन लर्निंग के बारे में बात करते समय, डीप लर्निंग का उल्लेख करना महत्वपूर्ण है। आइए यह कहकर शुरू करें कि गहन सीखने में उपयोग किए जाने वाले मुख्य उपकरणों में से एक कृत्रिम तंत्रिका नेटवर्क है। वे एल्गोरिदम हैं जो मस्तिष्क की संरचना और कार्य से प्रेरित होते हैं, भले ही वे स्थिर और प्रतीकात्मक होते हैं, न कि जैविक मस्तिष्क की तरह प्लास्टिक और एनालॉग। इसलिए, डीप लर्निंग कृत्रिम तंत्रिका नेटवर्क पर आधारित मशीन लर्निंग का एक विशेष रूप है, जिसका लक्ष्य मनुष्य के सीखने के तरीके को दोहराना है और यह उन पैटर्न को खोजने के लिए एक महान उपकरण के रूप में कार्य करता है जो एक प्रोग्रामर के लिए मशीन को सिखाने के लिए बहुत अधिक हैं। पिछले कुछ वर्षों में चालक रहित कारों के बारे में बहुत चर्चा हुई है और वे हमारे जीवन को कैसे बदल सकते हैं। डीप लर्निंग तकनीक यहां की कुंजी है, क्योंकि यह कार को फायर हाइड्रेंट से पैदल यात्री को अलग करने या लाल बत्ती को पहचानने में सक्षम बनाकर दुर्घटनाओं को कम करती है। डीप लर्निंग टेक्नोलॉजी टैबलेट, फोन, फ्रिज, टीवी आदि जैसे उपकरणों में आवाज नियंत्रण में भी मुख्य भूमिका निभाती है। ई-कॉमर्स कंपनियां अक्सर कृत्रिम तंत्रिका नेटवर्क का उपयोग फ़िल्टरिंग सिस्टम के रूप में करती हैं जो उन वस्तुओं की भविष्यवाणी करने और दिखाने की कोशिश करती है जो उपयोगकर्ता चाहते हैं। खरीदना। डीप लर्निंग टेक्नोलॉजी का इस्तेमाल मेडिकल फील्ड में भी किया जाता है। यह कैंसर शोधकर्ताओं को स्वचालित रूप से कैंसर कोशिकाओं का पता लगाने में मदद करता है और इस प्रकार कैंसर के उपचार में जबरदस्त प्रगति का प्रतिनिधित्व करता है।
वाक् पहचान
वाक् पहचान तकनीक, बोली जाने वाली भाषा के रूप में शब्दों और वाक्यांशों की पहचान करने और उन्हें मशीन के लिए एक पठनीय प्रारूप में बदलने का काम करती है। जबकि कुछ प्रोग्राम केवल सीमित संख्या में वाक्यांशों की पहचान कर सकते हैं, कुछ अधिक परिष्कृत वाक् पहचान कार्यक्रम प्राकृतिक भाषण को समझ सकते हैं।
क्या दूर करने के लिए बाधाएं हैं?
सुविधाजनक होते हुए भी, वाक् पहचान तकनीक हमेशा सुचारू रूप से नहीं चलती है और इसमें अभी भी काम करने के लिए कुछ मुद्दे हैं, क्योंकि यह लगातार विकसित हो रहा है। जो समस्याएं उत्पन्न हो सकती हैं उनमें निम्नलिखित शामिल हो सकते हैं: रिकॉर्डिंग की गुणवत्ता अपर्याप्त हो सकती है, पृष्ठभूमि में शोर हो सकता है जिससे स्पीकर को समझना मुश्किल हो जाता है, साथ ही स्पीकर के पास वास्तव में मजबूत उच्चारण या बोली हो सकती है (क्या आपने कभी जियोर्डी बोली सुनते हैं?), आदि।
वाक् पहचान काफी विकसित हो गई है, लेकिन यह अभी भी परिपूर्ण होने से बहुत दूर है। सब कुछ केवल शब्दों के बारे में नहीं है, मशीन अभी भी बहुत से काम नहीं कर सकती है जो मनुष्य कर सकते हैं: वे शरीर की भाषा नहीं पढ़ सकते हैं या किसी की आवाज में व्यंग्यात्मक स्वर को पहचान नहीं सकते हैं। लोग अक्सर हर शब्द का सही तरीके से उच्चारण नहीं करते हैं और वे कुछ शब्दों को छोटा कर देते हैं। उदाहरण के लिए, जब तेजी से और अनौपचारिक रूप से बोलते हैं, तो देशी अंग्रेजी बोलने वाले अक्सर "गोइंग टू" जैसे "गोना" का उच्चारण करते हैं। उपरोक्त सभी, उन मशीनों के लिए बाधाओं का कारण बनते हैं जिन्हें वे दूर करने का प्रयास कर रहे हैं, लेकिन उनके सामने अभी भी एक लंबा रास्ता तय करना है। यह उजागर करना महत्वपूर्ण है कि जैसे-जैसे अधिक से अधिक डेटा उन विशिष्ट एल्गोरिदम को फीड किया जाता है; चुनौतियां कम होती दिख रही हैं। स्वचालित वाक् पहचान का भविष्य उज्ज्वल प्रतीत होता है।
वॉयस-पावर्ड यूजर इंटरफेस तेजी से उपलब्ध हो रहे हैं और घरों में लोकप्रिय हो रहे हैं। यह प्रौद्योगिकी में अगला मंच भी बन सकता है।
Gglot स्वचालित ट्रांसक्रिप्शन सेवाओं के रूप में स्वचालित भाषण पहचान प्रदान करता है - हम भाषणों को पाठ में परिवर्तित करते हैं। हमारी सेवा का उपयोग करना सरल है, इसमें आपको ज़्यादा खर्च नहीं करना पड़ेगा और यह जल्दी से हो जाएगा!