Сөйлеуді тану дегеніміз не?

Сөйлеуді тану

Сөйлеуді тану туралы не білу керек

Сөйлеуді тану туралы айтатын болсақ, әдетте біз айтылған сөзді тану және оны бағдарламаға жазу мүмкіндігі бар бағдарламалық жасақтаманы білдіреді, сондықтан соңында сізде жазбаша форматта айтылғанның бәрі болады. Оны көбінесе «сөйлеуден мәтінге» деп те атайды. Бастапқыда бұл бағдарламалық жасақтаманың мүмкіндіктері өте шектеулі болды, сондықтан сіз тек шектеулі фразаларды түрлендіруге болады. Уақыт өте келе, сөйлеуді тану бағдарламалық жасақтамасының артындағы технология көп дамыды және ол әртүрлі тілдерді және тіпті әртүрлі екпіндерді тани алатындай етіп әлдеқайда жетілдірілген. Бірақ, әрине, бұл салада әлі де атқарылуы тиіс жұмыстар бар.

Сөйлеуді тану дауысты танумен бірдей емес екенін, кейде адамдар бір нәрсе үшін екі терминді қолданатынына қарамастан, ескеру маңызды. Дауысты тану сөйлеп тұрған адамды анықтау үшін және не айтылғанын ескермеу үшін қолданылады.

Сөйлеуді тану және онымен байланысты технологияның қысқаша тарихы

Бұл мақалада біз сөйлеуді танудың пайда болу тарихы мен технологиясын қысқаша түсіндіреміз.

Цифрлық дәуірдің таңынан бастап адамдарда қандай да бір жолмен машиналармен байланысу мүмкіндігі болды. Сандық компьютердің бірінші түрі ойлап табылғаннан кейін көптеген ғалымдар мен инженерлер бұл процеске сөйлеуді тануды қандай да бір жолмен енгізуге тырысты. Бұл процестің шешуші жылы 1962 жылы болды, ол кезде IBM қарапайым математикалық есептеулерді жасай алатын негізгі сөйлеуді тану машинасы Shoebox ашты. Егер осы протокомпьютердің пайдаланушысы микрофонмен сөйлессе, бұл құрылғы «плюс» немесе «минус» сияқты алты басқару сөзін тани алады. Уақыт өте келе бұл технология дамыды және бүгінгі күні компьютерлермен дауыспен әрекеттесу өте кең таралған мүмкіндік болып табылады. Siri немесе Alexa сияқты сөйлеуді тану үшін көптеген танымал қозғалтқыштар бар. Бұл дауыспен басқарылатын құрылғылар жасанды интеллектке (AI) және машиналық оқытуға тәуелді екенін атап өткен жөн.

Жасанды интеллект (AI) туралы айтылғанда, бұл ғылыми фантастикалық фильмдегідей көрінуі мүмкін, бірақ шындық бүгінгі күні және жасында AI біздің әлемде үлкен рөл атқарады. Шын мәнінде, AI біздің күнделікті өмірімізде өте көп, өйткені көптеген бағдарламалар мен қолданбалар оны қолданады. Бірақ бұл термин пайда болған 20 ғасырдың басында ғылыми фантастика болды. 1950 жылдың аяғында AI тұжырымдамалары көбірек танымал болды және көптеген ғалымдар мен философтардың қызығушылығын тудырды. Сол кезде Алан Тьюринг деген өте өршіл британдық математик машиналар қол жетімді ақпаратты енгізу негізінде есептерді өзі шеше алады және шешім қабылдай алады деген ұсыныс жасады. Мәселе жасанды интеллектті дамыту үшін шешуші қадам болып табылатын бұл деректерді компьютерлерде есте сақтау мүмкіндігінің әлі болмағанында болды. Ол кезде олардың қолынан келетіні қарапайым командаларды орындау болды.

AI дамуындағы тағы бір маңызды атау - «жасанды интеллект» терминін алғаш рет енгізген Джон МакКарти. Маккарти AI - бұл «интеллектуалды машиналарды жасау ғылымы мен техникасы» деп мәлімдеді. Бұл анықтама 1956 жылы Дартмут колледжінде өткен маңызды конференцияда белгілі болды. Содан бастап AI қарқынды дами бастады.

Бүгінгі таңда жасанды интеллект өзінің әртүрлі түрінде барлық жерде бар. Ол негізінен күн сайын дүние жүзінде алмасатын деректердің жалпы көлемінің ұлғаюына байланысты жаппай қабылдануға дейін өсті. Ол жетілдірілген алгоритмдерде қолданылады және сақтау мен есептеу қуатын жақсартуға себеп болды. AI көптеген мақсаттарда қолданылады, мысалы, аударма, транскрипция, сөйлеу, бет пен нысанды тану, медициналық кескіндерді талдау, табиғи тілдерді өңдеу, әртүрлі әлеуметтік желі сүзгілері және т.б. Гроссмейстер Гари Каспаров пен Deep Blue шахматының AI арасындағы шахмат матчы есіңізде ме?

Атаусыз 7 1

Машиналық оқыту - жасанды интеллекттің тағы бір маңызды қолданбасы. Қысқаша айтқанда, бұл өз тәжірибесінің деректер базасынан үйрену және жақсарту мүмкіндігі бар кез келген жүйелерге қатысты. Бұл үлгілерді тану арқылы жұмыс істейді. Жүйе мұны істеу үшін оны оқыту керек. Жүйенің алгоритмі деректердің үлкен көлемін енгізеді және бір сәтте ол осы деректерден үлгілерді анықтай алады. Бұл процестің түпкі мақсаты - бұл компьютерлік жүйелерге адамның араласуын немесе көмегін қажет етпей, өз бетінше оқуға мүмкіндік беру.

Машиналық оқытумен қатар айта кететін тағы бір маңызды нәрсе - терең оқыту. Терең оқыту үдерісіндегі ең маңызды құралдардың бірі жасанды нейрондық желілер деп аталады. Олар адам миының құрылымы мен қызметіне ұқсас жетілдірілген алгоритмдер. Дегенмен, олар пластикалық және аналогтық негізделген биологиялық миға қарағанда статикалық және символдық болып табылады. Қысқаша айтқанда, бұл терең оқыту - бұл ең алдымен жасанды нейрондық желілерге негізделген машиналық оқытудың өте мамандандырылған әдісі. Терең оқытудың мақсаты адамның оқу процестерін тығыз қайталау болып табылады. Терең оқыту технологиясы өте пайдалы және ол дауыспен басқарылатын түрлі құрылғыларда – планшеттерде, теледидарларда, смартфондарда, тоңазытқыштарда және т.б. маңызды рөл атқарады. Жасанды нейрондық желілер элементтерді болжауға бағытталған сүзгі жүйесінің бір түрі ретінде де қолданылады. пайдаланушы болашақта сатып алатын. Терең оқыту технологиясы медицина саласында да өте кең қолданылады. Бұл қатерлі ісік зерттеушілері үшін өте маңызды, өйткені ол рак клеткаларын автоматты түрде анықтауға көмектеседі.

Енді біз сөйлеуді тануға қайта ораламыз. Бұл технология, жоғарыда айтқанымыздай, сөйлеу тіліндегі әртүрлі сөздер мен сөз тіркестерін анықтауға бағытталған. Содан кейін ол оларды машина оқи алатын пішімге түрлендіреді. Негізгі бағдарламалар негізгі сөз тіркестерінің аз ғана санын анықтайды, бірақ кейбір жетілдірілген сөйлеуді тану бағдарламалық құралы табиғи сөйлеудің барлық түрлерін шеше алады. Сөйлеуді тану технологиясы көп жағдайда ыңғайлы, бірақ кейде жазба сапасы жеткіліксіз болған кезде немесе динамикті дұрыс түсінуді қиындататын фондық шулар болғанда ақауларға тап болады. Сондай-ақ, сөйлеушінің екпіні немесе диалектісі күшті болса, ол әлі де кейбір мәселелерге тап болуы мүмкін. Сөйлеуді тану үнемі дамып келеді, бірақ ол әлі де жетілген емес. Барлығы сөзбен байланысты емес, машиналар әлі де адам жасай алатын көптеген нәрселерді жасай алмайды, мысалы, олар дене тілін немесе біреудің дауысының реңкін шеше алмайды. Дегенмен, осы жетілдірілген алгоритмдер арқылы көбірек деректер шифрланғандықтан, бұл қиындықтардың кейбірінің қиындықтары азаяды. Болашақ не әкелетінін кім біледі? Сөйлеуді тану қайда аяқталатынын болжау қиын. Мысалы, Google қазірдің өзінде Google Translate қозғалтқыштарында сөйлеуді тану бағдарламалық құралын енгізуде көптеген жетістіктерге жетуде және құрылғы үнемі үйреніп, дамып отырады. Бір күні олар адам аудармашыларды толығымен ауыстыратын шығар. Немесе, мүмкін емес, күнделікті сөйлеу жағдайлары адам жанының тереңдігін оқи алмайтын кез келген машина үшін тым күрделі.

Сөйлеуді тануды қашан қолдану керек?

Қазіргі уақытта барлығында дерлік смартфон немесе планшет бар. Сөйлеуді тану - бұл құрылғылардағы ортақ мүмкіндік. Олар адамның сөзін әрекетке айналдыру үшін қолданылады. Егер сіз әжеңізге қоңырау шалғыңыз келсе, «әжеге қоңырау шалу» пәрменін беру жеткілікті және смартфоныңыз контактілер тізімдері арқылы термей-ақ нөмірді теріп жатыр. Бұл сөйлеуді тану. Оның тағы бір жақсы мысалы - Alexa немесе Siri. Сондай-ақ олардың жүйесінде бұл мүмкіндік қатты сымға ие. Google сонымен қатар кез келген нәрсені термей-ақ дауыспен іздеу мүмкіндігін береді.

Атаусыз 8 1

Мүмкін сіз мұның бәрі қалай жұмыс істейтіні туралы қызықтыратын шығар. Оның жұмыс істеуі үшін микрофондар сияқты сенсорларды бағдарламалық құралға енгізу керек, осылайша айтылған сөздердің дыбыс толқындары танып, талданады және цифрлық форматқа түрлендіріледі. Содан кейін цифрлық ақпаратты кейбір сөздер мен өрнектер репозиторийінде сақталған басқа ақпаратпен салыстыру керек. Сәйкестік болған кезде бағдарламалық құрал пәрменді танып, соған сәйкес әрекет ете алады.

Осы жерде айта кететін тағы бір нәрсе WER (сөз қатесінің жылдамдығы) деп аталады. Бұл қате санын сөздердің жалпы санына бөлетін формула. Демек, қарапайым тілмен айтсақ, дәлдікке көп қатысы бар. Мақсат, әрине, төмен WER болуы, өйткені бұл айтылған сөздің транскрипциясы дәлірек екенін білдіреді.

Сөйлеуді тану қазір бұрынғыдай сұранысқа ие. Сондай-ақ, айтылған сөзді, айталық, жазылған аудио файлдан мәтінге түрлендіру қажет болса, Gglot қолданбасына жүгінуге болады. Біз дәл транскрипцияларды әділ бағаға ұсынатын транскрипция қызметінің провайдеріміз. Сондықтан, біздің пайдаланушыға ыңғайлы веб-сайтымыз арқылы байланысудан тартынбаңыз.