स्पीच रेकग्निशनमध्ये आर्टिफिशियल इंटेलिजन्स आणि मशीन लर्निंगची भूमिका

स्पीच रेकग्निशनमध्ये आर्टिफिशियल इंटेलिजन्स आणि मशीन लर्निंगची भूमिका

बर्याच काळापासून, लोकांना मशीनशी बोलण्यास सक्षम व्हायचे होते. जेव्हापासून त्यांनी संगणक बनवण्यास सुरुवात केली, तेव्हापासून शास्त्रज्ञ आणि अभियंते या प्रक्रियेमध्ये उच्चार ओळखणे समाविष्ट करण्याचा प्रयत्न करत आहेत. 1962 मध्ये, IBM ने शूबॉक्स, एक उच्चार ओळखण्याचे यंत्र सादर केले जे गणिताची साधी गणना करू शकते. या नाविन्यपूर्ण उपकरणाने “0” ते “9” पर्यंतच्या दहा अंकांसह 16 बोललेले शब्द ओळखले आणि त्यांना प्रतिसाद दिला. जेव्हा “प्लस,” “वजा” आणि “एकूण” सारखे संख्या आणि कमांड शब्द बोलले गेले, तेव्हा शूबॉक्सने साध्या अंकगणित समस्यांची उत्तरे मोजण्यासाठी आणि मुद्रित करण्यासाठी ॲडिंग मशीनला निर्देश दिले. शूबॉक्स एका मायक्रोफोनमध्ये बोलून ऑपरेट केले गेले, ज्याने आवाजाचे आवाज विद्युत आवेगांमध्ये रूपांतरित केले. मापन सर्किटने या आवेगांचे विविध प्रकारच्या ध्वनींनुसार वर्गीकरण केले आणि रिले प्रणालीद्वारे संलग्न जोडण्याचे यंत्र सक्रिय केले.

कालांतराने, हे तंत्रज्ञान विकसित झाले आणि आज आपल्यापैकी बरेच जण नियमितपणे आवाजाद्वारे संगणकाशी संवाद साधतात. आज सर्वात लोकप्रिय व्हॉईस सहाय्यक आहेत ॲमेझॉनचे अलेक्सा, ऍपलचे सिरी, Google सहाय्यक आणि मायक्रोसॉफ्टचे कोर्टाना. हे सहाय्यक आदेश किंवा प्रश्नांवर आधारित एखाद्या व्यक्तीसाठी कार्ये किंवा सेवा करू शकतात. ते मानवी भाषणाचा अर्थ लावण्यास आणि संश्लेषित आवाजांद्वारे प्रतिसाद देण्यास सक्षम आहेत. वापरकर्ते त्यांच्या सहाय्यकांना प्रश्न विचारू शकतात, व्हॉईसद्वारे होम ऑटोमेशन डिव्हाइसेस आणि मीडिया प्लेबॅक नियंत्रित करू शकतात आणि इतर मूलभूत कार्ये जसे की ईमेल, टू-डू याद्या आणि मौखिक आदेशांसह कॅलेंडर व्यवस्थापित करू शकतात. आम्ही जितके जास्त व्हॉइस-चालित उपकरणे वापरतो तितके जास्त आम्ही होऊ. कृत्रिम बुद्धिमत्ता (AI) आणि मशीन लर्निंगवर अवलंबून.

कृत्रिम बुद्धिमत्ता (AI)

1

जेव्हा तुम्ही आर्टिफिशियल इंटेलिजेंस (AI) म्हणता, तेव्हा बऱ्याच लोकांना वाटेल की तुम्ही विज्ञानकथेबद्दल बोलत आहात, जरी AI आपल्या दैनंदिन जीवनात अगदी अंतर्भूत आहे. किंबहुना ते अनेक दशकांपासून आहे. परंतु सत्य हे आहे की, 20 व्या शतकाच्या सुरूवातीस कृत्रिमरित्या बुद्धिमान मानवासारख्या रोबोट्सची लोकांना ओळख करून देणारी ही खरोखरच विज्ञान कथा होती. 50 च्या दशकात AI च्या संकल्पना अधिकाधिक शास्त्रज्ञ आणि तत्त्वज्ञांच्या आवडीच्या केंद्रस्थानी आल्या. त्या काळात तरुण ब्रिटिश गणितज्ञ ॲलन ट्युरिंग यांनी असे सुचवले की यंत्रे (मानवांप्रमाणेच) समस्या सोडवू शकत नाहीत आणि उपलब्ध माहितीच्या आधारे निर्णय घेऊ शकत नाहीत असे काही कारण नाही. परंतु त्या काळात, संगणकांना लक्षात ठेवण्याची शक्यता नव्हती जे बुद्धिमत्तेसाठी महत्त्वाचे आहे. त्यांनी फक्त आज्ञा अंमलात आणल्या. परंतु तरीही, ॲलन ट्युरिंग यांनीच कृत्रिम बुद्धिमत्तेचे मूलभूत ध्येय आणि दृष्टी स्थापित केली.

AI चे जनक म्हणून व्यापकपणे ओळखले जाणारे जॉन मॅककार्थी आहेत ज्यांनी कृत्रिम बुद्धिमत्ता हा शब्द तयार केला. त्याच्यासाठी AI हे होते: “बुद्धिमान मशीन बनवण्याचे विज्ञान आणि अभियांत्रिकी”. ही व्याख्या 1956 मध्ये डार्टमाउथ कॉलेजमध्ये एका परिषदेत मांडण्यात आली होती आणि ती एआय संशोधनाच्या सुरुवातीस सूचित करते. तेव्हापासून एआयची भरभराट झाली.

आधुनिक जगात कृत्रिम बुद्धिमत्ता सर्वव्यापी आहे. वाढीव डेटा व्हॉल्यूम, प्रगत अल्गोरिदम आणि संगणकीय शक्ती आणि स्टोरेजमधील सुधारणांमुळे हे अधिक लोकप्रिय झाले आहे. बहुतेक एआय ऍप्लिकेशन बौद्धिक कार्यांशी जोडलेले असते. आम्ही भाषांतर, वस्तू, चेहरा आणि उच्चार ओळखणे, विषय शोधणे, वैद्यकीय प्रतिमा विश्लेषण, नैसर्गिक भाषा प्रक्रिया, सोशल नेटवर्क फिल्टरिंग, बुद्धिबळ खेळणे इत्यादींसाठी AI वापरतो.

मशीन लर्निंग

मशीन लर्निंग हा कृत्रिम बुद्धिमत्तेचा वापर आहे आणि ते त्यांच्या स्वतःच्या अनुभवातून सुधारण्याची क्षमता असलेल्या प्रणालींचा संदर्भ देते. येथे सर्वात महत्वाची गोष्ट म्हणजे सिस्टमला नमुने कसे ओळखायचे हे माहित असणे आवश्यक आहे. हे करण्यास सक्षम होण्यासाठी सिस्टीमला प्रशिक्षित करणे आवश्यक आहे: अल्गोरिदम मोठ्या प्रमाणात डेटा फीड करते त्यामुळे काही क्षणी ते नमुने ओळखण्यास सक्षम होते. मानवी हस्तक्षेप किंवा मदतीशिवाय संगणक आपोआप शिकू देणे हे उद्दिष्ट आहे.

मशीन लर्निंगबद्दल बोलत असताना, सखोल शिक्षणाचा उल्लेख करणे महत्त्वाचे आहे. चला असे सांगून सुरुवात करूया की सखोल शिक्षणामध्ये वापरले जाणारे एक मुख्य साधन म्हणजे कृत्रिम न्यूरल नेटवर्क. ते अल्गोरिदम आहेत जे मेंदूच्या रचना आणि कार्याद्वारे प्रेरित आहेत, जरी ते स्थिर आणि प्रतीकात्मक असतात, आणि जैविक मेंदूसारखे प्लास्टिक आणि ॲनालॉग नसतात. तर, डीप लर्निंग हे कृत्रिम न्यूरल नेटवर्कवर आधारित मशीन लर्निंगचे एक विशेष प्रकार आहे ज्याचे उद्दिष्ट मानवाच्या शिकण्याच्या पद्धतीची प्रतिकृती बनवणे आहे आणि हे नमुने शोधण्यासाठी एक उत्तम साधन आहे जे प्रोग्रामरला मशीन शिकवण्यासाठी खूप जास्त आहेत. गेल्या काही वर्षांत ड्रायव्हरलेस कार आणि त्या आपले जीवन कसे बदलू शकतात याबद्दल बरीच चर्चा झाली आहे. येथे सखोल शिक्षण तंत्रज्ञान महत्त्वाचे आहे, कारण ते कारला पादचाऱ्याला फायर हायड्रंटपासून वेगळे करण्यास किंवा लाल दिवा ओळखण्यास सक्षम करून अपघात कमी करते. टॅब्लेट, फोन, फ्रीज, टीव्ही इत्यादी उपकरणांमध्ये व्हॉइस कंट्रोलमध्ये डीप लर्निंग टेक्नॉलॉजी देखील मुख्य भूमिका बजावते. ई-कॉमर्स कंपन्या बऱ्याचदा कृत्रिम न्यूरल नेटवर्कचा वापर फिल्टरिंग सिस्टीम म्हणून करतात जे वापरकर्त्याला आवडतील अशा आयटमचा अंदाज लावण्याचा आणि दाखवण्याचा प्रयत्न करतात. खरेदी वैद्यकीय क्षेत्रातही सखोल शिक्षण तंत्रज्ञानाचा वापर केला जातो. हे कर्करोगाच्या संशोधकांना कर्करोगाच्या पेशींचा आपोआप शोध घेण्यास मदत करते आणि अशा प्रकारे कर्करोगाच्या उपचारात मोठी प्रगती दर्शवते.

भाषण ओळख

स्पीच रेकग्निशन टेक्नॉलॉजी बोलल्या जाणाऱ्या भाषेतील शब्द आणि वाक्ये ओळखण्यासाठी आणि त्यांना मशीनसाठी वाचनीय फॉरमॅटमध्ये रूपांतरित करण्यासाठी कार्य करते. काही प्रोग्राम्स केवळ मर्यादित वाक्ये ओळखू शकतात, तर काही अधिक परिष्कृत भाषण ओळख कार्यक्रम नैसर्गिक भाषणाचा उलगडा करू शकतात.

मात करण्यासाठी अडथळे आहेत का?

सोयीस्कर असताना, उच्चार ओळखण्याचे तंत्रज्ञान नेहमी सहजतेने जात नाही आणि त्यात अजूनही काही समस्या आहेत, कारण ते सतत विकसित होत आहे. ज्या समस्या उद्भवू शकतात त्यामध्ये खालील गोष्टींचा समावेश असू शकतो: रेकॉर्डिंगची गुणवत्ता अपुरी असू शकते, पार्श्वभूमीमध्ये आवाज असू शकतो ज्यामुळे स्पीकर समजणे कठीण होते, तसेच स्पीकरचा उच्चार किंवा बोली खरोखरच मजबूत असू शकते (तुम्ही का? जिओर्डी बोली कधी ऐकली आहे?), इ.

उच्चार ओळखणे खूप विकसित झाले आहे, परंतु ते अद्याप परिपूर्ण होण्यापासून दूर आहे. सर्व काही केवळ शब्दांपुरतेच नाही, यंत्र अजूनही मानव करू शकत असलेल्या अनेक गोष्टी करू शकत नाही: ते शरीराची भाषा वाचू शकत नाहीत किंवा एखाद्याच्या आवाजातील व्यंग्यात्मक स्वर ओळखू शकत नाहीत. लोक बऱ्याचदा प्रत्येक शब्द योग्य प्रकारे उच्चारत नाहीत आणि ते काही शब्द लहान करतात. उदाहरणार्थ, जलद आणि अनौपचारिकपणे बोलत असताना, मूळ इंग्रजी भाषिक सहसा "going to" जसे की "gonna" उच्चारतात. वरील सर्व, मशीन्ससाठी अडथळे निर्माण करतात ज्यावर ते मात करण्याचा प्रयत्न करीत आहेत, परंतु त्यांच्यासमोर अजून बराच पल्ला आहे. हे हायलाइट करणे महत्वाचे आहे की अधिकाधिक डेटा त्या विशिष्ट अल्गोरिदमसाठी फीड केला जातो; आव्हाने कमी होताना दिसत आहेत. ऑटोमेटेड स्पीच रेकग्निशनचे भविष्य उज्ज्वल असल्याचे दिसते.

व्हॉइस-चालित वापरकर्ता इंटरफेस वाढत्या प्रमाणात उपलब्ध होत आहेत आणि घरांमध्ये लोकप्रिय होत आहेत. ते कदाचित तंत्रज्ञानातील पुढील व्यासपीठ बनू शकेल.

Gglot स्वयंचलित प्रतिलेखन सेवांच्या स्वरूपात स्वयंचलित उच्चार ओळख ऑफर करतो - आम्ही भाषणांना मजकूरात रूपांतरित करतो. आमची सेवा वापरण्यास सोपी आहे, त्यासाठी तुम्हाला जास्त खर्च येणार नाही आणि ती लवकर पूर्ण केली जाईल!