Ролята на изкуствения интелект и машинното обучение в разпознаването на реч
Ролята на изкуствения интелект и машинното обучение в разпознаването на реч
От дълго време хората искаха да могат да говорят с машини. Откакто са започнали да създават компютри, учените и инженерите се опитват да включат разпознаването на реч в процеса. През 1962 г. IBM представи Shoebox, машина за разпознаване на реч, която можеше да прави прости математически изчисления. Това иновативно устройство разпозна и отговори на 16 изречени думи, включително десетте цифри от „0“ до „9“. Когато бяха произнесени число и командни думи като „плюс“, „минус“ и „общо“, Shoebox инструктира сумираща машина да изчисли и отпечата отговорите на прости аритметични задачи. Кутията за обувки се управляваше чрез говорене в микрофон, който преобразуваше гласовите звуци в електрически импулси. Измервателна верига класифицира тези импулси според различни видове звуци и активира прикрепената сумираща машина чрез релейна система.
С времето тази технология се разви и днес много от нас рутинно взаимодействат с нашите компютри чрез глас. Най-популярните гласови асистенти днес са Alexa от Amazon, Siri от Apple, Google Assistant и Cortana от Microsoft. Тези асистенти могат да изпълняват задачи или услуги за дадено лице въз основа на команди или въпроси. Те са в състояние да интерпретират човешка реч и да реагират чрез синтезирани гласове. Потребителите могат да задават въпроси на своите асистенти, да контролират устройствата за домашна автоматизация и възпроизвеждането на мултимедия чрез глас и да управляват други основни задачи като имейл, списъци със задачи и календари с устни команди. Колкото повече използваме тези управлявани с глас устройства, толкова повече ставаме зависим от изкуствения интелект (AI) и машинното обучение.
Изкуствен интелект (AI)
Когато кажете изкуствен интелект (AI), много хора може да си помислят, че говорите за научна фантастика, въпреки че AI е много вграден в нашето ежедневие. Всъщност това е от десетилетия. Но истината е, че наистина научната фантастика в началото на 20 век запозна обществеността с изкуствено интелигентни човекоподобни роботи. През 50-те години на миналия век концепциите за ИИ попадат все повече във фокуса на интереса на учени и философи. По това време младият британски математик Алън Тюринг предположи, че няма причина машините да не могат (също като хората) да решават проблеми и да вземат решения въз основа на наличната информация. Но по това време компютрите не са имали възможност за запаметяване, което е ключово за интелекта. Всичко, което правеха, беше да изпълняват команди. Но все пак Алън Тюринг е този, който установи основната цел и визия за изкуствения интелект.
Широко признат като баща на AI е Джон Маккарти, който измисли термина изкуствен интелект . За него AI беше: „наука и инженерство за създаване на интелигентни машини“. Тази дефиниция е представена на конференция в Dartmouth College през 1956 г. и показва началото на изследванията на ИИ. Оттогава AI процъфтява.
В съвременния свят изкуственият интелект е повсеместен. Той стана по-популярен благодарение на увеличените обеми данни, усъвършенстваните алгоритми и подобренията в изчислителната мощност и съхранението. Предимно AI приложението е свързано с интелектуални задачи. Използваме AI за превод, разпознаване на обекти, лица и реч, откриване на теми, анализ на медицински изображения, обработка на естествен език, филтриране на социални мрежи, игра на шах и др.
Машинно обучение
Машинното обучение е приложение на изкуствен интелект и се отнася до системи, които имат способността да се подобряват от собствения си опит. Най-важното тук е, че системата трябва да знае как да разпознава модели. За да може да направи това, системата трябва да бъде обучена: алгоритъмът захранва големи количества данни, така че в даден момент да е в състояние да идентифицира модели. Целта е да се позволи на компютрите да се учат автоматично без човешка намеса или помощ.
Когато говорим за машинно обучение, важно е да споменем дълбокото обучение. Нека започнем с това, че един от основните инструменти, използвани в дълбокото обучение, са изкуствените невронни мрежи. Това са алгоритми, които са вдъхновени от структурата и функцията на мозъка, въпреки че са склонни да бъдат статични и символични, а не пластични и аналогови като биологичния мозък. И така, дълбокото обучение е специализирана форма на машинно обучение, базирана на изкуствена невронна мрежа, чиято цел е да възпроизведе начина, по който хората учат, и това служи като чудесен инструмент за намиране на модели, които са твърде многобройни, за да може програмистът да научи машината. През последните няколко години се говори много за автомобили без водачи и как те могат да променят живота ни. Технологията за задълбочено обучение е ключът тук, защото намалява инцидентите, като позволява на автомобила да различи пешеходец от пожарен хидрант или да разпознае червена светлина. Технологията за дълбоко обучение също играе основна роля в гласовия контрол в устройства като таблети, телефони, хладилници, телевизори и т.н. Компаниите за електронна търговия често използват изкуствени невронни мрежи като филтрираща система, която се опитва да предвиди и покаже артикулите, които потребителят би искал да Купува. Технологията за дълбоко обучение се използва и в областта на медицината. Той помага на изследователите на рака да откриват автоматично ракови клетки и по този начин представлява огромен напредък в лечението на рака.
Гласово разпознаване
Технологията за разпознаване на реч служи за идентифициране на думи и фрази от говоримия език и за преобразуването им в четим формат за машината. Докато някои програми могат да идентифицират само ограничен брой фрази, някои по-сложни програми за разпознаване на реч могат да дешифрират естествената реч.
Има ли пречки за преодоляване?
Въпреки че е удобна, технологията за разпознаване на реч не винаги върви гладко и все още има няколко проблема, които трябва да разрешите, тъй като непрекъснато се развива. Проблемите, които могат да възникнат, могат да включват, между другото, следното: качеството на записа може да е незадоволително, може да има шумове на заден план, които затрудняват разбирането на говорещия, също така говорещият може да има наистина силен акцент или диалект (нали сте чувал ли си някога диалекта Джорди?) и т.н.
Разпознаването на реч се разви доста, но все още е далеч от перфектното. Не всичко е само в думите, машините все още не могат да правят много неща, които хората могат: те не могат да разчетат езика на тялото или да разпознаят саркастичния тон в нечий глас. Хората често не произнасят всяка дума по правилния начин и са склонни да съкращават някои думи. Например, когато говорят бързо и неофициално, говорещите английски език често произнасят „going to“ като „gonna“. Всичко по-горе създава препятствия за машините, които те се опитват да преодолеят, но все още има дълъг път пред тях. Важно е да се подчертае, че тъй като все повече и повече данни се подават към тези специфични алгоритми; предизвикателствата изглежда намаляват. Бъдещето на автоматизираното разпознаване на реч изглежда светло.
Гласовите потребителски интерфейси стават все по-достъпни и популярни в домакинствата. Може дори да стане следващата платформа в технологиите.
Gglot предлага автоматизирано разпознаване на реч под формата на услуги за автоматизирано преписване – ние преобразуваме речи в текст. Нашата услуга е лесна за използване, няма да ви струва много и ще бъде направена бързо!