स्पीच रिकग्निसन भनेको के हो?
बोली पहिचान
तपाईंले वाक् पहिचानको बारेमा के जान्न आवश्यक छ
जब हामी वाक् पहिचानको बारेमा कुरा गर्दैछौं, सामान्यतया हाम्रो मतलब एउटा सफ्टवेयर हो जसमा बोलिएको शब्द चिन्न र यसलाई प्रोग्राममा लेख्न सक्ने क्षमता हुन्छ त्यसैले अन्तमा तपाइँसँग लिखित ढाँचामा बोलिएको सबै कुरा हुन्छ। यसलाई प्रायः "स्पीच-टु-टेक्स्ट" भनेर पनि चिनिन्छ। सुरुमा त्यो सफ्टवेयरसँग धेरै सीमित सम्भावनाहरू थिए, ताकि तपाईंले सीमित संख्यामा मात्र वाक्यांशहरू रूपान्तरण गर्न सक्नुहुनेछ। समयको साथ, बोली पहिचान सफ्टवेयर पछाडिको प्रविधि धेरै विकसित भएको छ र यो अब धेरै परिष्कृत भएको छ, जसले गर्दा यसले विभिन्न भाषाहरू र विभिन्न उच्चारणहरू पनि चिन्न सक्छ। तर पक्कै पनि, यस क्षेत्रमा अझै काम गर्न आवश्यक छ।
यो नोट गर्न पनि महत्त्वपूर्ण छ कि वाक् पहिचान आवाज पहिचान जस्तै होइन, यद्यपि कहिलेकाहीँ मानिसहरूले एउटै कुराको लागि दुई सर्तहरू प्रयोग गर्छन्। आवाज पहिचान बोल्ने व्यक्तिको पहिचानको लागि प्रयोग गरिन्छ र के भनिएको थियो नोट गर्न होइन।
वाक् पहिचान र सम्बन्धित प्रविधिको छोटो इतिहास
यस लेखमा, हामी भाषण पहिचानको उदय पछिको इतिहास र प्रविधिलाई संक्षिप्त रूपमा व्याख्या गर्नेछौं।
डिजिटल युगको प्रारम्भदेखि नै, मानिसहरूलाई कुनै न कुनै तरिकाले मेशिनहरूसँग सञ्चार गर्न सक्षम हुने आग्रह थियो। पहिलो प्रकारको डिजिटल कम्प्युटर आविष्कार गरिसकेपछि, धेरै वैज्ञानिक र इन्जिनियरहरूले यस प्रक्रियामा वाक् पहिचानलाई लागू गर्न विभिन्न तरिकामा प्रयास गरेका छन्। यस प्रक्रियाको एक महत्वपूर्ण वर्ष 1962 थियो, जब IBM ले Shoebox खुलासा गर्यो, एक आधारभूत वाक् पहिचान मेसिन जसले सरल गणित गणना गर्न सक्षम थियो। यदि यो प्रोटो-कम्प्यूटरको प्रयोगकर्ताले माइक्रोफोनमा बोल्यो भने, यो मेसिनले "प्लस" वा "माइनस" जस्ता छवटा नियन्त्रण शब्दहरू पहिचान गर्न सक्षम थियो। समयको साथ, यस पछाडिको प्रविधि विकसित भयो र आज यो आवाज द्वारा कम्प्युटर संग अन्तरक्रिया गर्न धेरै सामान्य सुविधा हो। सिरी वा एलेक्सा जस्ता धेरै प्रसिद्ध वाक् पहिचान इन्जिनहरू छन्। यो नोट गर्न महत्त्वपूर्ण छ कि यी आवाज-संचालित यन्त्रहरू कृत्रिम बुद्धिमत्ता (AI) र मेसिन लर्निङमा निर्भर छन्।
जब आर्टिफिसियल इन्टेलिजेन्स (AI) को उल्लेख गरिन्छ, यो कुनै विज्ञान कथा चलचित्रको जस्तो लाग्न सक्छ, तर सत्य यो हो कि आजको दिन र युगमा AI ले हाम्रो संसारमा ठूलो भूमिका खेल्छ। वास्तवमा, एआई पहिले नै हाम्रो दैनिक जीवनमा धेरै उपस्थित छ, किनकि धेरै कार्यक्रमहरू र अनुप्रयोगहरूले यसलाई पहिले नै प्रयोग गर्छन्। तर यो २० औं शताब्दीको सुरुमा विज्ञान कथा थियो, जब शब्दको उदय भयो। 1950 को उत्तरार्धमा AI को अवधारणाहरू अधिक प्रख्यात भए र धेरै वैज्ञानिक र दार्शनिकहरूको चासोको केन्द्रबिन्दु बन्यो। त्यस समयमा, एलन ट्युरिङ नामक एक धेरै महत्वाकांक्षी बेलायती गणितज्ञले उपलब्ध जानकारीको इनपुटको आधारमा मेसिनहरूले समस्याहरू समाधान गर्न र निर्णयहरू आफैले गर्न सक्छन् भन्ने प्रस्ताव राखे। समस्या यो थियो कि कम्प्यूटरहरूले त्यो डाटा याद गर्न सक्ने सम्भावना थिएन, जुन कृत्रिम बुद्धिमत्ताको विकासको लागि महत्त्वपूर्ण कदम हो। त्यसपछि तिनीहरूले गर्न सक्ने सबै सरल आदेशहरू कार्यान्वयन गर्न थियो।
AI को विकासमा अर्को महत्त्वपूर्ण नाम जोन म्याकार्थी हो, जसले पहिलो पटक "कृत्रिम बुद्धिमत्ता" शब्द बनाएका थिए। म्याकार्थीले भने कि एआई भनेको "बुद्धिमान मेसिनहरू बनाउने विज्ञान र इन्जिनियरिङ्" हो। यो परिभाषा 1956 मा डार्टमाउथ कलेज मा एक सेमिनल सम्मेलन मा प्रकाशमा आएको थियो। तब देखि AI एक उन्मत्त गति मा विकास गर्न थाले।
आज, आर्टिफिसियल इन्टेलिजेन्स यसको विभिन्न रूप मा जताततै उपस्थित छ। मुख्यतया हरेक दिन विश्वव्यापी रूपमा आदानप्रदान भइरहेको डेटाको समग्र मात्रामा भएको वृद्धिको कारणले यो ठूलो मात्रामा अपनाइएको छ। यसलाई उन्नत एल्गोरिदमहरूमा प्रयोग गरिन्छ, र यसले भण्डारण र कम्प्युटिङ पावरमा सुधार ल्यायो। एआई धेरै उद्देश्यका लागि प्रयोग गरिन्छ, उदाहरणका लागि अनुवाद, ट्रान्सक्रिप्शन, बोली, अनुहार र वस्तु पहिचान, चिकित्सा छविहरूको विश्लेषण, प्राकृतिक भाषाहरूको प्रशोधन, विभिन्न सामाजिक नेटवर्क फिल्टरहरू र यस्तै अन्य। ग्रान्डमास्टर गारी कास्पारोभ र डीप ब्लू चेस एआई बीचको चेस म्याच याद गर्नुहोस्?
मेसिन लर्निङ आर्टिफिसियल इन्टेलिजेन्सको अर्को महत्त्वपूर्ण प्रयोग हो। छोटकरीमा, यसले कुनै पनि प्रणालीहरूलाई बुझाउँछ जुन उनीहरूको आफ्नै अनुभवको डाटाबेसबाट सिक्ने र सुधार गर्ने क्षमता छ। यो ढाँचा को पहिचान मार्फत काम गर्दछ। यसका लागि प्रणालीलाई तालिम दिन आवश्यक छ । प्रणालीको एल्गोरिदमले ठूलो मात्रामा डेटाको इनपुट प्राप्त गर्दछ, र एक बिन्दुमा यो डेटाबाट ढाँचाहरू पहिचान गर्न सक्षम हुन्छ। यस प्रक्रियाको अन्तिम लक्ष्य यी कम्प्युटर प्रणालीहरूलाई कुनै पनि मानव हस्तक्षेप वा सहायताको आवश्यकता बिना स्वतन्त्र रूपमा सिक्न सक्षम पार्नु हो।
मेसिन लर्निङको साथमा उल्लेख गर्न धेरै महत्त्वपूर्ण अर्को कुरा गहिरो शिक्षा हो। गहिरो शिक्षाको प्रक्रियामा सबैभन्दा महत्त्वपूर्ण उपकरणहरू मध्ये एक तथाकथित कृत्रिम न्यूरल नेटवर्कहरू हुन्। तिनीहरू उन्नत एल्गोरिदमहरू हुन्, मानव मस्तिष्कको संरचना र कार्य जस्तै। यद्यपि, तिनीहरू स्थिर र प्रतीकात्मक छन्, जैविक मस्तिष्कको विपरीत जुन प्लास्टिक र अधिक एनालग आधारित छ। छोटकरीमा भन्नुपर्दा, यो गहिरो सिकाइ मेसिन लर्निङको एक धेरै विशेष तरिका हो, मुख्य रूपमा कृत्रिम न्यूरल नेटवर्कहरूमा आधारित। गहिरो शिक्षाको लक्ष्य मानव सिकाइ प्रक्रियाहरूलाई नजिकबाट नक्कल गर्नु हो। डीप लर्निङ टेक्नोलोजी धेरै उपयोगी छ, र यसले आवाज - ट्याब्लेट, टिभी, स्मार्टफोन, फ्रिज आदि द्वारा नियन्त्रित विभिन्न उपकरणहरूमा महत्त्वपूर्ण भूमिका खेल्छ। कृत्रिम तंत्रिका नेटवर्कहरू पनि एक प्रकारको फिल्टरिङ प्रणालीको रूपमा प्रयोग गरिन्छ जसले वस्तुहरूको भविष्यवाणी गर्ने लक्ष्य राख्छ। जुन प्रयोगकर्ताले भविष्यमा खरिद गर्नेछन्। गहिरो शिक्षा प्रविधि पनि चिकित्सा क्षेत्रमा धेरै व्यापक रूपमा प्रयोग गरिन्छ। क्यान्सर अनुसन्धानकर्ताहरूको लागि यो धेरै महत्त्वपूर्ण छ, किनभने यसले स्वचालित रूपमा क्यान्सर कोशिकाहरू पत्ता लगाउन मद्दत गर्दछ।
अब हामी वाक् पहिचानमा फर्कनेछौं। यो प्रविधि, हामीले पहिले नै उल्लेख गरिसकेका छौं, बोली भाषाका विभिन्न शब्द र वाक्यांशहरू पहिचान गर्ने लक्ष्य राख्छ। पछि यसले तिनीहरूलाई मेसिनले पढ्न सक्ने ढाँचामा रूपान्तरण गर्दछ। आधारभूत कार्यक्रमहरूले थोरै संख्यामा मुख्य वाक्यांशहरू मात्र पहिचान गर्दछ, तर केही थप उन्नत वाणी पहिचान सफ्टवेयरले सबै प्रकारका प्राकृतिक वाणीहरू बुझाउन सक्षम हुन्छ। स्पीच रिकग्निसन टेक्नोलोजी धेरै जसो केसहरूमा सुविधाजनक छ, तर यसले कहिलेकाँही समस्याहरूको सामना गर्दछ जब रेकर्डिङको गुणस्तर पर्याप्त राम्रो छैन वा जब पृष्ठभूमि आवाजहरू छन् जसले स्पिकरलाई राम्रोसँग बुझ्न गाह्रो बनाउँछ। स्पिकरको साँच्चै बलियो उच्चारण वा बोली छ भने यसले अझै पनि केही समस्याहरू सामना गर्न सक्छ। बोली पहिचान निरन्तर विकास भइरहेको छ, तर यो अझै पनि एकदम सही छैन। सबै कुरा शब्दहरूको बारेमा होइन, मेसिनहरू अझै पनि मानिसहरूले गर्न सक्ने धेरै चीजहरूमा सक्षम छैनन्, उदाहरणका लागि तिनीहरू शरीरको भाषा वा कसैको आवाजको स्वर बुझ्न सक्षम छैनन्। यद्यपि, यी उन्नत एल्गोरिदमहरूद्वारा थप डेटाको व्याख्या गरिएको हुनाले, यी मध्ये केही चुनौतीहरू कठिनाईमा घटेको देखिन्छ। कसलाई थाहा छ भविष्यले के ल्याउनेछ? वाक् पहिचान कहाँ पुग्छ भन्ने अनुमान गर्न गाह्रो छ। उदाहरणका लागि, Google ले Google अनुवादक इन्जिनहरूमा वाक् पहिचान सफ्टवेयर लागू गर्नमा पहिले नै धेरै सफलता पाइरहेको छ, र मेसिनले निरन्तर सिक्ने र विकास गरिरहेको छ। सायद एक दिन तिनीहरूले मानव अनुवादकहरूलाई पूर्ण रूपमा प्रतिस्थापन गर्नेछन्। वा हुनसक्दैन, दैनिक बोली परिस्थितिहरू कुनै पनि प्रकारको मेसिनको लागि धेरै जटिल हुन्छन् जुन मानव आत्माको गहिराइ पढ्न सक्षम छैन।
वाक् पहिचान कहिले प्रयोग गर्ने?
आजकल लगभग सबैसँग स्मार्टफोन वा ट्याब्लेट छ। ती यन्त्रहरूमा स्पीच रिकग्निसन एक सामान्य सुविधा हो। तिनीहरू एक व्यक्तिको भाषणलाई कार्यमा रूपान्तरण गर्न प्रयोग गरिन्छ। यदि तपाइँ तपाइँको हजुरआमालाई कल गर्न चाहानुहुन्छ भने, तपाइँ "आमालाई कल गर्नुहोस्" आदेश दिनु पर्याप्त छ र तपाइँको स्मार्टफोनले तपाइँको सम्पर्क सूचीहरू मार्फत टाइप नगरी पहिले नै नम्बर डायल गरिरहेको छ। यो बोली पहिचान हो। यसको अर्को राम्रो उदाहरण, एलेक्सा वा सिरी हो। तिनीहरूसँग पनि तिनीहरूको प्रणालीमा यो सुविधा हार्ड-वायर्ड छ। गुगलले तपाईंलाई कुनै पनि कुरा टाइप नगरिकन आवाजद्वारा कुनै पनि कुरा खोज्ने विकल्प दिन्छ।
सायद तपाई अब यो सबै कसरी काम गर्छ भन्ने बारे उत्सुक हुनुहुन्छ। ठीक छ, यो काम गर्नको लागि, माइक्रोफोन जस्ता सेन्सरहरू सफ्टवेयरमा निर्माण गर्नुपर्दछ ताकि बोलिएका शब्दहरूको ध्वनि तरंगहरू पहिचान, विश्लेषण र डिजिटल ढाँचामा रूपान्तरण गर्न सकिन्छ। त्यसपछि डिजिटल जानकारीलाई अन्य जानकारीसँग तुलना गर्नुपर्दछ जुन कुनै प्रकारको शब्द र अभिव्यक्ति भण्डारमा भण्डार गरिएको हुन्छ। जब त्यहाँ मिल्दोजुल्दो छ सफ्टवेयरले आदेश पहिचान गर्न र तदनुसार कार्य गर्न सक्छ।
यस बिन्दुमा उल्लेख गर्न आवश्यक एक अर्को कुरा तथाकथित WER (शब्द त्रुटि दर) हो। यो एक सूत्र हो जसमा तपाईले त्रुटि संख्यालाई शब्दहरूको कुलसँग विभाजित गर्नुहुन्छ। त्यसोभए, यसलाई सरल सर्तहरूमा राख्नको लागि, यसको शुद्धतासँग धेरै कुरा छ। लक्ष्य पक्कै पनि कम WER हुनु हो, किनभने यसको मतलब यो हो कि बोलिएको शब्दको ट्रान्सक्रिप्शन अधिक सटीक छ।
भाषण पहिचान अहिले पहिले जस्तै धेरै माग मा छ। यदि तपाइँले पनि बोल्ने शब्दलाई रेकर्ड गरिएको अडियो फाइललाई पाठमा रूपान्तरण गर्न आवश्यक छ भने, तपाइँ Gglot मा जान सक्नुहुन्छ। हामी एक ट्रान्सक्रिप्शन सेवा प्रदायक हो जसले उचित मूल्यमा सही ट्रान्सक्रिप्सनहरू प्रदान गर्दछ। त्यसोभए, हाम्रो प्रयोगकर्ता-मैत्री वेबसाइट मार्फत सम्पर्क गर्न नहिचकिचाउनुहोस्।