Улога вештачке интелигенције и машинског учења у препознавању говора
Улога вештачке интелигенције и машинског учења у препознавању говора
Људи су дуго времена желели да могу да разговарају са машинама. Од када су почели да праве компјутере, научници и инжењери су покушавали да у процес уграде препознавање говора. Године 1962. ИБМ је представио Схоебок, машину за препознавање говора која је могла да ради једноставне математичке прорачуне. Овај иновативни уређај препознао је и одговорио на 16 изговорених речи, укључујући десет цифара од „0“ до „9“. Када су изговорени бројеви и командне речи као што су „плус“, „минус“ и „укупно“, Схоебок је дао инструкције машини за сабирање да израчуна и одштампа одговоре на једноставне аритметичке проблеме. Боксом за ципеле се управљало говором у микрофон, који је претварао гласовне звукове у електричне импулсе. Мерно коло је класификовало ове импулсе према различитим врстама звукова и преко релејног система активирало прикључену машину за сабирање.
Временом се ова технологија развила и данас многи од нас рутински комуницирају са нашим рачунарима путем гласа. Најпопуларнији гласовни асистенти данас су Алека од Амазона, Сири од Аппле-а, Гоогле Ассистант и Цортана од Мицрософта. Ови помоћници могу обављати задатке или услуге за појединца на основу команди или питања. Они су у стању да тумаче људски говор и реагују путем синтетизованих гласова. Корисници могу постављати питања својим помоћницима, контролисати уређаје за кућну аутоматизацију и репродукцију медија путем гласа и управљати другим основним задацима као што су е-пошта, листе обавеза и календари помоћу вербалних команди. Што више користимо ове уређаје вођене гласом, то више постајемо зависи од вештачке интелигенције (АИ) и машинског учења.
Вештачка интелигенција (АИ)
Када кажете вештачка интелигенција (АИ), многи људи могу помислити да говорите о научној фантастици, иако је вештачка интелигенција веома уграђена у наш свакодневни живот. У ствари, тако је деценијама. Али истина је да је научна фантастика на почетку 20. века упознала јавност са вештачки интелигентним роботима налик људима. Током 50-их година, концепти АИ су све више долазили у фокус интересовања научника и филозофа. У то време млади британски математичар Алан Тјуринг је сугерисао да не постоји разлог зашто машине не би могле (баш као људи) да решавају проблеме и доносе одлуке на основу доступних информација. Али у то време компјутери нису имали могућност памћења што је кључно за интелигенцију. Све што су радили је извршавање команди. Али ипак, Алан Туринг је био тај који је успоставио основни циљ и визију вештачке интелигенције.
Широко познат као отац вештачке интелигенције је Џон Макарти који је сковао термин вештачка интелигенција . За њега је вештачка интелигенција била: „наука и инжењеринг прављења интелигентних машина“. Ова дефиниција је представљена на конференцији на Дартмоутх колеџу 1956. године и наговестила је почетак истраживања вештачке интелигенције. Од тада је вештачка интелигенција цветала.
У савременом свету вештачка интелигенција је свеприсутна. Постао је популарнији захваљујући повећаном обиму података, напредним алгоритмима и побољшањима у рачунарској снази и складиштењу. Углавном је АИ апликација повезана са интелектуалним задацима. Користимо АИ за превођење, препознавање објеката, лица и говора, откривање тема, анализу медицинске слике, обраду природног језика, филтрирање друштвених мрежа, играње шаха итд.
Машинско учење
Машинско учење је примена вештачке интелигенције и односи се на системе који имају способност да се побољшају из сопственог искуства. Овде је најважније да систем мора да зна како да препозна обрасце. Да би то могао да уради систем треба да буде обучен: алгоритам храни велике количине података тако да је у неком тренутку у стању да идентификује обрасце. Циљ је омогућити компјутерима да уче аутоматски без људске интервенције или помоћи.
Када говоримо о машинском учењу, важно је поменути дубоко учење. Почнимо тако што ћемо рећи да су један од главних алата који се користе у дубоком учењу вештачке неуронске мреже. То су алгоритми који су инспирисани структуром и функцијом мозга, иако имају тенденцију да буду статични и симболични, а не пластични и аналогни као биолошки мозак. Дакле, дубоко учење је специјализовани облик машинског учења заснованог на вештачкој неуронској мрежи чији је циљ да реплицира начин на који људи уче и ово служи као одличан алат за проналажење образаца који су превише бројни да би програмер могао да научи машину. У последњих неколико година много се причало о аутомобилима без возача и како би они могли да промене наше животе. Технологија дубоког учења је кључна овде, јер смањује незгоде тако што омогућава аутомобилу да разликује пешака од ватрогасног хидранта или да препозна црвено светло. Технологија дубоког учења такође игра главну улогу у управљању гласом у уређајима као што су таблети, телефони, фрижидери, телевизори итд. Компаније за е-трговину често користе вештачке неуронске мреже као систем за филтрирање који покушава да предвиди и прикаже ставке које би корисник желео да купити. Технологија дубоког учења се такође користи у области медицине. Помаже истраживачима рака да аутоматски открију ћелије рака и тако представља огроман напредак у лечењу рака.
Препознавање говора
Технологија препознавања говора служи да идентификује речи и фразе из говорног језика и да их претвори у читљив формат за машину. Док неки програми могу да идентификују само ограничен број фраза, неки софистициранији програми за препознавање говора могу да дешифрују природни говор.
Постоје ли препреке које треба превазићи?
Иако је згодна, технологија препознавања говора не иде увек глатко и још увек има неколико проблема које треба решити, јер се континуирано развија. Проблеми који се могу појавити могу укључивати, између осталог, следеће: квалитет снимка може бити неадекватан, могу бити шумови у позадини који отежавају разумевање говорника, такође говорник може имати заиста јак акценат или дијалект (да ли сте да ли сте икада чули Геордие дијалект?), итд.
Препознавање говора се доста развило, али је још увек далеко од савршеног. Није све само у речима, машина још увек не може да уради много ствари које људи могу: не могу да читају говор тела или препознају саркастичан тон у нечијем гласу. Људи често не изговарају сваку реч на прави начин и имају тенденцију да скрате неке речи. На пример, када говоре брзо и неформално, изворни говорници енглеског често изговарају „гоинг то“ као „гонна“. Све наведено ствара препреке машинама које покушавају да савладају, али је пред њима још дуг пут. Важно је нагласити да се тим специфичним алгоритмима шаље све више и више података; изгледа да се изазови смањују. Чини се да је будућност аутоматског препознавања говора светла.
Кориснички интерфејси са гласовним напајањем постају све доступнији и популарнији у домаћинствима. Можда чак и постане следећа платформа у технологији.
Гглот нуди аутоматизовано препознавање говора у облику услуга аутоматизоване транскрипције – ми претварамо говоре у текст. Наша услуга је једноставна за коришћење, неће вас много коштати и биће урађена брзо!