Што точно е препознавање говор?

Препознавање на говор

Што треба да знаете за препознавање говор

Кога зборуваме за препознавање говор, обично мислиме на софтвер кој има способност да го препознае изговорениот збор и да го запише во програма за на крајот да имате се што е изговорено во пишан формат. Исто така, често се нарекува „говор во текст“. На почетокот тој софтвер имаше многу ограничени можности, така што можете да конвертирате само ограничен број фрази. Со текот на времето, технологијата зад софтверот за препознавање говор се разви многу и сега е многу пософистицирана, така што може да препознава различни јазици, па дури и различни акценти. Но, се разбира, има уште работа што треба да се направи на ова поле.

Исто така, важно е да се забележи дека препознавањето говор не е исто како и препознавањето на глас, иако понекогаш луѓето ги користат двата термина за иста работа. Препознавањето на гласот се користи за идентификација на лицето што зборува, а не за да се забележи што се зборува.

Кратка историја на препознавање говор и поврзана технологија

Во оваа статија, накратко ќе ја објасниме историјата и технологијата зад подемот на препознавање говор.

Уште од почетокот на дигиталната ера, луѓето имаа желба некако да можат да комуницираат со машините. Откако беше измислен првиот вид дигитален компјутер, бројни научници и инженери се обидоа на различни начини некако да го имплементираат препознавањето говор во овој процес. Клучна година на овој процес беше 1962 година, кога IBM го откри Shoebox, основна машина за препознавање говор која можеше да прави едноставни математички пресметки. Ако корисникот на овој прото-компјутер зборуваше во микрофон, оваа машина можеше да препознае до шест контролни зборови како „плус“ или „минус“. Со текот на времето, технологијата зад ова се разви и денес е многу честа карактеристика да се комуницира со компјутерите преку глас. Постојат многу познати мотори за препознавање говор како Siri или Alexa. Важно е да се напомене дека овие уреди управувани со глас зависат од вештачката интелигенција (ВИ) и машинското учење.

Кога ќе се спомене вештачката интелигенција (ВИ), можеби звучи како нешто од научно-фантастичен филм, но вистината е дека во денешно време вештачката интелигенција игра голема улога во нашиот свет. Всушност, вештачката интелигенција е веќе многу присутна во нашиот секојдневен живот, бидејќи многу програми и апликации веќе ја користат. Но, тоа беше научна фантастика на почетокот на 20 век, кога се појави терминот. Кон крајот на 1950 година, концептите на вештачката интелигенција станаа поистакнати и беа во фокусот на интересот на многу научници и филозофи. Во тоа време, многу амбициозен британски математичар Алан Тјуринг излезе со предлог дека машините можат сами да решаваат проблеми и да донесуваат одлуки, врз основа на внесување на достапни информации. Проблемот беше што компјутерите сè уште немаа можност да ги меморираат тие податоци, што е клучен чекор за развој на вештачката интелигенција. Сè што можеа да направат тогаш беше да извршат едноставни команди.

Друго важно име во развојот на вештачката интелигенција е Џон Мекарти, кој прв го измислил самиот термин „вештачка интелигенција“. Мекарти изјави дека вештачката интелигенција е „наука и инженерство за правење интелигентни машини“. Оваа дефиниција излезе на виделина на главната конференција на колеџот Дартмут во 1956 година. Оттогаш, вештачката интелигенција почна да се развива со избезумено темпо.

Денес, вештачката интелигенција во различни форми е присутна насекаде. Тој прерасна до масовно усвојување, главно поради зголемувањето на вкупниот обем на податоци што се разменуваат ширум светот секој ден. Се користи во напредни алгоритми и доведе до подобрувања во складирањето и компјутерската моќ. Вештачката интелигенција се користи за многу намени, на пример, превод, транскрипција, говор, препознавање лица и предмети, анализа на медицински слики, обработка на природни јазици, разни филтри за социјални мрежи и така натаму. Се сеќавате на тој шаховски меч меѓу велемајсторот Гари Каспаров и Deep Blue chess AI?

Без наслов 7 1

Машинското учење е уште една многу важна примена на вештачката интелигенција. Накратко, тоа се однесува на сите системи кои имаат способност да учат и да се подобрат од базата на податоци на сопственото искуство. Ова функционира преку препознавање на обрасци. За системот да го направи тоа треба да биде способен да биде обучен. Алгоритмот на системот прима влез од големи количини на податоци и во еден момент станува способен да идентификува шеми од тие податоци. Крајната цел на овој процес е да им овозможи на овие компјутерски системи самостојно да учат, без потреба од каква било човечка интервенција или помош.

Друга работа што е многу важно да се спомене заедно со машинското учење е длабокото учење. Една од најважните алатки во процесот на длабоко учење се таканаречените вештачки невронски мрежи. Тие се напредни алгоритми, слични на структурата и функцијата на човечкиот мозок. Сепак, тие се статични и симболични, за разлика од биолошкиот мозок кој е пластичен и повеќе аналоген. Накратко, ова длабоко учење е многу специјализиран начин на машинско учење, првенствено базиран на вештачки невронски мрежи. Целта на длабокото учење е тесно да се реплицираат процесите на човечко учење. Технологијата за длабоко учење е многу корисна и игра важна улога во различни уреди кои се контролираат со глас - таблети, телевизори, паметни телефони, фрижидери итн. кои корисникот би ги купил во иднина. Технологијата за длабоко учење е исто така многу широко користена во медицинската област. Тоа е многу важно за истражувачите на ракот, бидејќи помага за автоматско откривање на клетките на ракот.

Сега ќе се вратиме на препознавање говор. Оваа технологија, како што веќе споменавме, има за цел да идентификува различни зборови и фрази од говорниот јазик. Потоа ги претвора во формат што машината може да го чита. Основните програми идентификуваат само мал број клучни фрази, но некои понапредни софтвери за препознавање говор можат да ги дешифрираат сите видови природен говор. Технологијата за препознавање говор е погодна во повеќето случаи, но понекогаш наидува на проблеми кога квалитетот на снимањето не е доволно добар или кога има звуци во заднина што го отежнуваат правилното разбирање на звучникот. Исто така, сè уште може да наиде на некои проблеми кога говорникот има навистина силен акцент или дијалект. Препознавањето говор постојано се развива, но сепак не е сосема совршено. Не е сè до зборовите, машините сè уште не се способни за многу работи што луѓето можат да ги направат, на пример не се во можност да дешифрираат говор на телото или тонот на нечиј глас. Меѓутоа, како што се дешифрираат повеќе податоци со овие напредни алгоритми, некои од овие предизвици се чини дека се намалуваат во тешкотии. Кој знае што ќе донесе иднината? Тешко е да се предвиди каде ќе заврши препознавањето говор. На пример, Google веќе има многу успех во имплементацијата на софтверот за препознавање говор во моторите на Google Translate, а машината постојано учи и се развива. Можеби еден ден тие целосно ќе ги заменат човечките преведувачи. Или можеби не, секојдневните говорни ситуации се премногу сложени за каква било машина која не е способна да ја прочита длабочината на човечката душа.

Кога да се користи препознавање говор?

Во денешно време речиси секој има паметен телефон или таблет. Препознавањето говор е вообичаена карактеристика на тие уреди. Тие се користат за претворање на говорот на една личност во акција. Ако сакате да и се јавите на вашата баба, доволно е да наредите „повикајте ја баба“ и вашиот паметен телефон веќе го бира бројот без да мора да пишувате преку списоците со контакти. Ова е препознавање на говор. Друг добар пример за тоа, е Alexa или Siri. Тие, исто така, ја имаат оваа функција хард-жична во нивниот систем. Google ви дава и опција да пребарувате што било со глас, без да пишувате ништо.

Без наслов 8 1

Можеби сега сте љубопитни за тоа како функционира сето ова. Па, за да функционира, сензори како микрофони треба да се вградат во софтверот, така што звучните бранови на изговорените зборови се препознаваат, анализираат и се претвораат во дигитален формат. Дигиталните информации потоа треба да се споредат со други информации што се складирани во некој вид складиште за зборови и изрази. Кога има совпаѓање, софтверот може да ја препознае командата и да дејствува соодветно.

Уште една работа што треба да се спомене во овој момент е таканаречениот WER (стапка на грешка во зборовите). Ова е формула во која го делите бројот на грешка со вкупниот број зборови. Значи, да се каже во едноставни термини, има многу врска со точноста. Целта е секако да се има низок WER, бидејќи тоа значи дека транскрипцијата на изговорениот збор е попрецизна.

Препознавањето на говорот сега е барано како и секогаш. Ако исто така треба да го конвертирате изговорениот збор од да речеме снимена аудио датотека во текст, можете да се свртите на Gglot. Ние сме давател на услуги за транскрипција кој нуди точни транскрипции за фер цена. Затоа, не двоумете се да стапите во контакт преку нашата веб-страница која е погодна за корисниците.