Улогата на вештачката интелигенција и машинското учење во препознавањето на говорот

Улогата на вештачката интелигенција и машинското учење во препознавањето на говорот

Долго време, луѓето сакаа да можат да разговараат со машини. Откако почнаа да градат компјутери, научниците и инженерите се обидоа да го вклучат препознавањето говор во процесот. Во 1962 година, IBM го претстави Shoebox, машина за препознавање говор што може да прави едноставни математички пресметки. Овој иновативен уред препозна и одговори на 16 изговорени зборови, вклучувајќи ги и десетте цифри од „0“ до „9“. Кога се изговарале број и командни зборови како „плус“, „минус“ и „вкупно“, Шубокс и наложил на машината за додавање да пресметува и печати одговори на едноставни аритметички проблеми. Shoebox се управувал со зборување во микрофон, кој гласовните звуци ги претворал во електрични импулси. Мерното коло ги класифицираше овие импулси според различни типови звуци и ја активираше приклучената машина за додавање преку систем за реле.

Со текот на времето, оваа технологија се разви и денес многумина од нас рутински комуницираат со компјутери преку глас. Најпопуларните гласовни асистенти денес се Alexa од Amazon, Siri од Apple, Google Assistant и Cortana од Microsoft. Овие асистенти можат да извршуваат задачи или услуги за поединец врз основа на команди или прашања. Тие се способни да го толкуваат човечкиот говор и да одговорат преку синтетизирани гласови. Корисниците можат да им поставуваат прашања на своите асистенти, да ги контролираат уредите за домашна автоматизација и репродукцијата на медиуми преку глас и да управуваат со други основни задачи како што се е-пошта, списоци со задачи и календари со вербални команди. Колку повеќе ги користиме овие уреди управувани со глас, толку повеќе стануваме зависни од вештачката интелигенција (ВИ) и машинското учење.

Вештачка интелигенција (ВИ)

1

Кога велите вештачка интелигенција (ВИ), многу луѓе можеби мислат дека зборувате за научна фантастика, иако вештачката интелигенција е многу вградена во нашиот секојдневен живот. Всушност, тоа е со децении. Но, вистината е дека навистина беше научна фантастика која на почетокот на 20 век ја запозна јавноста со вештачки интелигентни роботи слични на луѓе. Во 50-тите, концептите на вештачката интелигенција сè повеќе беа во фокусот на интересот на научниците и филозофите. Во тоа време, младиот британски математичар Алан Туринг сугерираше дека не постои причина зошто машините (исто како и луѓето) не можат да решаваат проблеми и да донесуваат одлуки врз основа на достапните информации. Но, во тоа време, компјутерите немаа можност за меморирање што е клучно за интелигенција. Сè што правеле е да извршуваат команди. Но, сепак, Алан Туринг беше тој што ја утврди основната цел и визијата на вештачката интелигенција.

Нашироко признат како татко на вештачката интелигенција е Џон Мекарти кој го измислил терминот вештачка интелигенција . За него вештачката интелигенција беше: „наука и инженерство за правење интелигентни машини“. Оваа дефиниција беше претставена на конференција на колеџот Дартмут во 1956 година и го означи почетокот на истражувањето на вештачката интелигенција. Оттогаш, вештачката интелигенција процвета.

Во современиот свет вештачката интелигенција е сеприсутна. Стана попопуларен благодарение на зголемениот волумен на податоци, напредните алгоритми и подобрувањата во компјутерската моќ и складирањето. Претежно апликацијата за вештачка интелигенција е поврзана со интелектуални задачи. Ние користиме вештачка интелигенција за превод, предмети, препознавање лица и говор, откривање теми, анализа на медицински слики, обработка на природен јазик, филтрирање на социјалните мрежи, играње шах итн.

Машинско учење

Машинското учење е примена на вештачката интелигенција и се однесува на системи кои имаат способност да се подобрат од сопственото искуство. Овде најважно е дека системот треба да знае како да препознава шаблони. За да може да го направи тоа, системот треба да се обучи: алгоритмот дава големи количини на податоци, така што во одреден момент може да идентификува шеми. Целта е да им се овозможи на компјутерите да учат автоматски без човечка интервенција или помош.

Кога зборуваме за машинско учење, важно е да се спомене длабокото учење. Да почнеме со тоа што една од главните алатки што се користат во длабокото учење се вештачките невронски мрежи. Тоа се алгоритми кои се инспирирани од структурата и функцијата на мозокот, иако имаат тенденција да бидат статични и симболични, а не пластични и аналогни како биолошкиот мозок. Значи, длабокото учење е специјализирана форма на машинско учење заснована на вештачка невронска мрежа, чија цел е да го реплицира начинот на кој луѓето учат и ова служи како одлична алатка за пронаоѓање обрасци кои се премногу бројни за програмер да ја научи машината. Во изминатите неколку години многу се зборуваше за автомобилите без возачи и како тие би можеле да ни го променат животот. Технологијата за длабоко учење е клучот овде, бидејќи ги намалува несреќите со тоа што му овозможува на автомобилот да разликува пешак од противпожарен хидрант или да препознае црвено светло. Технологијата за длабоко учење, исто така, ја игра главната улога во гласовната контрола на уреди како таблети, телефони, фрижидери, телевизори итн. Компаниите за е-трговија често користат вештачки невронски мрежи како систем за филтрирање кој се обидува да ги предвиди и покаже ставките што корисникот би сакал да ги купи. Технологијата за длабоко учење се користи и во медицинското поле. Тоа им помага на истражувачите на ракот автоматски да ги откријат клетките на ракот и на тој начин претставува огромен напредок во третманот на ракот.

Препознавање на говор

Технологијата за препознавање говор служи за да се идентификуваат зборовите и фразите од говорниот јазик и да се претворат во читлив формат за машината. Додека некои програми можат да идентификуваат само ограничен број фрази, некои пософистицирани програми за препознавање говор можат да го дешифрираат природниот говор.

Дали има пречки што треба да се надминат?

Иако е удобна, технологијата за препознавање говор не оди секогаш глатко и сè уште има неколку проблеми за решавање, бидејќи постојано се развива. Проблемите што може да се појават може да го вклучуваат следново: квалитетот на снимањето може да биде несоодветен, може да има звуци во позадина што го отежнуваат разбирањето на говорникот, исто така, говорникот може да има навистина силен акцент или дијалект (дали некогаш сте го слушнале дијалектот Геордие?), итн.

Препознавањето говор се разви доста, но сè уште е далеку од совршено. Не е сè само во зборови, машината сè уште не може да направи многу работи што луѓето ги можат: не можат да читаат говор на телото или да препознаат саркастичен тон во нечиј глас. Луѓето често не го изговараат секој збор на правилен начин и имаат тенденција да скратуваат некои зборови. На пример, кога зборуваат брзо и неформално, мајчин англиски јазик често изговараат „going to“ како „gonna“. Сето горенаведено, предизвикува пречки за машините кои тие се обидуваат да ги надминат, но пред нив има уште долг пат. Важно е да се истакне дека се повеќе и повеќе податоци се хранат со тие специфични алгоритми; се чини дека предизвиците се намалуваат. Се чини дека иднината на автоматското препознавање говор е светла.

Корисничките интерфејси кои се напојуваат со глас стануваат сè подостапни и популарни во домаќинствата. Може дури и да стане следната платформа во технологијата.

Gglot нуди автоматско препознавање говор во форма на автоматизирани услуги за транскрипција - ние ги претвораме говорите во текст. Нашата услуга е едноставна за користење, нема да ве чини многу и ќе се направи брзо!