Шта је тачно препознавање говора?

Препознавање говора

Шта треба да знате о препознавању говора

Када говоримо о препознавању говора, обично мислимо на софтвер који има могућност да препозна изговорену реч и да је запише у програм тако да на крају имате све што је изговорено у писаном облику. Такође се често назива „говор у текст“. У почетку је тај софтвер имао веома ограничене могућности, тако да сте могли да конвертујете само ограничен број фраза. Временом се технологија која стоји иза софтвера за препознавање говора доста развила и сада је много софистициранија, тако да може да препозна различите језике, па чак и различите акценте. Али, наравно, још увек има посла који треба да се уради на овом пољу.

Такође је важно приметити да препознавање говора није исто што и препознавање гласа, иако понекад људи користе два термина за исту ствар. Препознавање гласа се користи за идентификацију особе која говори, а не за бележење онога што је речено.

Кратка историја препознавања говора и сродне технологије

У овом чланку ћемо укратко објаснити историју и технологију иза успона препознавања говора.

Још од почетка дигиталног доба, људи су имали потребу да некако могу да комуницирају са машинама. Након што је изумљена прва врста дигиталног рачунара, бројни научници и инжењери су на различите начине покушавали да некако имплементирају препознавање говора у овај процес. Пресудна година овог процеса била је 1962, када је ИБМ открио Схоебок, основну машину за препознавање говора која је била у стању да ради једноставне математичке прорачуне. Ако је корисник овог прото-рачунара говорио у микрофон, ова машина је могла да препозна до шест контролних речи попут „плус” или „минус”. Временом се технологија која стоји иза овога развила и данас је врло уобичајена карактеристика интеракције са рачунарима путем гласа. Постоји много познатих машина за препознавање говора попут Сири или Алека. Важно је напоменути да ови уређаји вођени гласом зависе од вештачке интелигенције (АИ) и машинског учења.

Када се помене вештачка интелигенција (АИ), можда звучи као нешто из научнофантастичног филма, али истина је да у данашње време АИ игра велику улогу у нашем свету. У ствари, вештачка интелигенција је већ веома присутна у нашем свакодневном животу, пошто је многи програми и апликације већ користе. Али то је била научна фантастика почетком 20. века, када се тај термин појавио. Крајем 1950. концепти вештачке интелигенције постали су истакнутији и били су у фокусу интересовања многих научника и филозофа. У то време, веома амбициозни британски математичар по имену Алан Тјуринг изнео је предлог да машине могу да решавају проблеме и доносе одлуке саме, на основу уноса доступних информација. Проблем је био што компјутери још нису имали могућност меморисања тих података, што је кључни корак за развој вештачке интелигенције. Све што су тада могли да ураде било је да извршавају једноставне команде.

Друго важно име у развоју АИ је Џон Макарти, који је први сковао сам термин „вештачка интелигенција“. Макарти је рекао да је вештачка интелигенција: „наука и инжењеринг за прављење интелигентних машина“. Ова дефиниција је изашла на видело на кључној конференцији на Дартмоутх колеџу 1956. Од тада је вештачка интелигенција почела да се развија махнитим темпом.

Данас је вештачка интелигенција у свом различитом облику присутна свуда. Порастао је до масовног усвајања, углавном због повећања укупног обима података који се свакодневно размењују широм света. Користи се у напредним алгоритмима и довео је до побољшања меморије и рачунарске снаге. АИ се користи у многе сврхе, на пример за превођење, транскрипцију, говор, препознавање лица и објеката, анализу медицинских слика, обраду природних језика, разне филтере друштвених мрежа и тако даље. Сећате се оног шаховског меча између велемајстора Гарија Каспарова и Дееп Блуе шаховске вештачке интелигенције?

Без наслова 7 1

Машинско учење је још једна веома важна примена вештачке интелигенције. Укратко, односи се на све системе који имају могућност да уче и унапређују из базе података сопственог искуства. Ово функционише кроз препознавање образаца. Да би систем то урадио, мора бити у стању да буде обучен. Алгоритам система прима улаз велике количине података и у једном тренутку постаје у стању да идентификује обрасце из тих података. Крајњи циљ овог процеса је да омогући овим рачунарским системима да уче самостално, без потребе за било каквом људском интервенцијом или помоћи.

Још једна ствар коју је веома важно поменути поред машинског учења је дубоко учење. Један од најважнијих алата у процесу дубоког учења су такозване вештачке неуронске мреже. Они су напредни алгоритми, слични структури и функцији људског мозга. Међутим, они су статични и симболични, за разлику од биолошког мозга који је пластичан и више аналоган. Укратко, ово дубоко учење је веома специјализован начин машинског учења, првенствено заснован на вештачким неуронским мрежама. Циљ дубоког учења је да уско реплицира процесе људског учења. Технологија дубоког учења је веома корисна и игра важну улогу у разним уређајима којима се управља гласом – таблетима, телевизорима, паметним телефонима, фрижидерима итд. Вештачке неуронске мреже се такође користе као нека врста система за филтрирање који има за циљ да предвиди ставке које би корисник купио у будућности. Технологија дубоког учења се такође веома широко користи у области медицине. То је веома важно за истраживаче рака, јер помаже у аутоматском откривању ћелија рака.

Сада ћемо се вратити на препознавање говора. Ова технологија, као што смо већ поменули, има за циљ да идентификује различите речи и фразе говорног језика. Након тога их конвертује у формат који машина може да чита. Основни програми идентификују само мали број кључних фраза, али неки напреднији софтвери за препознавање говора могу да дешифрују све врсте природног говора. Технологија препознавања говора је згодна у већини случајева, али понекад наилази на проблеме када квалитет снимка није довољно добар или када постоје позадински шумови који отежавају правилно разумевање говорника. Такође може да наиђе на неке проблеме када говорник има заиста јак акценат или дијалект. Препознавање говора се стално развија, али још увек није сасвим савршено. Није све у речима, машине још увек нису способне за многе ствари које људи могу, на пример не могу да дешифрују говор тела или тон нечијег гласа. Међутим, како се овим напредним алгоритмима дешифрује више података, чини се да неки од ових изазова смањују потешкоће. Ко зна шта ће будућност донети? Тешко је предвидети где ће завршити препознавање говора. На пример, Гоогле већ има доста успеха у имплементацији софтвера за препознавање говора у Гоогле Транслате моторима, а машине се стално уче и развијају. Можда ће једног дана у потпуности заменити људске преводиоце. Или можда и не, свакодневне говорне ситуације су превише сложене за било какву машину која није у стању да прочита дубину људске душе.

Када користити препознавање говора?

Данас скоро свако има паметни телефон или таблет. Препознавање говора је уобичајена карактеристика ових уређаја. Користе се за претварање говора особе у акцију. Ако желите да позовете своју баку, довољно је да командујете „позови баку“ и ваш паметни телефон већ бира број, а да ви не морате да куцате кроз своје листе контаката. Ово је препознавање говора. Још један добар пример за то је Алека или Сири. Они такође имају ову функцију чврсто ожичену у свом систему. Гоогле вам такође даје могућност да било шта тражите гласом, без уноса било чега.

Без наслова 8 1

Можда вас сада занима како све ово функционише. Па, да би то функционисало, сензори попут микрофона морају бити уграђени у софтвер тако да се звучни таласи изговорених речи препознају, анализирају и конвертују у дигитални формат. Дигиталне информације се затим морају упоредити са другим информацијама које се чувају у некој врсти репозиторијума речи и израза. Када постоји подударање, софтвер може препознати команду и поступити у складу са тим.

Још једна ствар коју треба поменути у овом тренутку је тзв. ВЕР (ворд еррор рате). Ово је формула у којој делите број грешке са укупним бројем речи. Дакле, једноставније речено, то има много везе са тачношћу. Циљ је наравно имати низак ВЕР, јер то значи да је транскрипција изговорене речи тачнија.

Препознавање говора је сада тражено као и увек. Ако такође треба да конвертујете изговорену реч из рецимо снимљене аудио датотеке у текст, можете се обратити Гглоту. Ми смо добављач услуга транскрипције који нуди тачне транскрипције по фер цени. Дакле, не устручавајте се да ступите у контакт преко наше веб странице прилагођене корисницима.