Роля штучнага інтэлекту і машыннага навучання ў распазнаванні маўлення

Роля штучнага інтэлекту і машыннага навучання ў распазнаванні маўлення

Доўгі час людзі хацелі мець магчымасць размаўляць з машынамі. З тых часоў, як яны пачалі ствараць кампутары, навукоўцы і інжынеры спрабавалі ўключыць распазнаванне маўлення ў працэс. У 1962 годзе IBM прадставіла Shoebox, машыну распазнання маўлення, якая магла рабіць простыя матэматычныя разлікі. Гэта інавацыйная прылада распазнавала і рэагавала на 16 вымаўленых слоў, уключаючы дзесяць лічбаў ад «0» да «9». Калі прамаўляліся лічбы і камандныя словы, такія як «плюс», «мінус» і «агульная сума», Shoebox загадваў суматару вылічыць і надрукаваць адказы на простыя арыфметычныя задачы. Абутковая скрынка кіравалася размовай у мікрафон, які пераўтвараў галасавыя гукі ў электрычныя імпульсы. Схема вымярэння класіфікавала гэтыя імпульсы ў адпаведнасці з рознымі тыпамі гукаў і актывавала далучаную сумную машыну праз рэлейную сістэму.

З часам гэтая тэхналогія развівалася, і сёння многія з нас рэгулярна ўзаемадзейнічаюць з нашымі кампутарамі з дапамогай голасу. Самыя папулярныя галасавыя памочнікі сёння - Alexa ад Amazon, Siri ад Apple, Google Assistant і Cortana ад Microsoft. Гэтыя памочнікі могуць выконваць заданні або паслугі для чалавека на аснове каманд або пытанняў. Яны здольныя інтэрпрэтаваць чалавечую гаворку і рэагаваць з дапамогай сінтэзаваных галасоў. Карыстальнікі могуць задаваць пытанні сваім памочнікам, кіраваць прыладамі хатняй аўтаматызацыі і прайграваннем мультымедыя з дапамогай голасу, а таксама кіраваць іншымі асноўнымі задачамі, такімі як электронная пошта, спісы спраў і календары з дапамогай вусных каманд. Чым больш мы выкарыстоўваем гэтыя галасавыя прылады, тым больш становімся залежыць ад штучнага інтэлекту (AI) і машыннага навучання.

Штучны інтэлект (AI)

1

Калі вы кажаце штучны інтэлект (ШІ), многія людзі могуць падумаць, што вы гаворыце пра навуковую фантастыку, нават калі ШІ моцна ўкараніўся ў наша паўсядзённае жыццё. Фактычна, гэта было на працягу дзесяцігоддзяў. Але праўда ў тым, што ў пачатку 20- га стагоддзя гэта была сапраўды навуковая фантастыка, якая пазнаёміла грамадскасць з чалавекападобнымі робатамі са штучным інтэлектам. У 50-я гады канцэпцыі штучнага інтэлекту ўсё больш і больш траплялі ў фокус навукоўцаў і філосафаў. У той час малады брытанскі матэматык Алан Цьюрынг выказаў здагадку, што няма прычын, чаму машыны не могуць (гэтак жа, як і людзі) вырашаць задачы і прымаць рашэнні на падставе даступнай інфармацыі. Але ў той час камп'ютары не мелі магчымасці запамінання, што з'яўляецца ключом да інтэлекту. Усё, што яны рабілі, гэта выконвалі каманды. Але ўсё ж менавіта Алан Цьюрынг стварыў фундаментальную мэту і бачанне штучнага інтэлекту.

Шырока прызнаным бацькам штучнага інтэлекту з'яўляецца Джон Макарці, які ўвёў тэрмін штучны інтэлект . Для яго штучны інтэлект быў: «навука і тэхніка стварэння інтэлектуальных машын». Гэта вызначэнне было прадстаўлена на канферэнцыі ў Дартмутскім каледжы ў 1956 годзе і паклала пачатак даследаванням ІІ. З гэтага часу ІІ пачаў квітнець.

У сучасным свеце штучны інтэлект паўсюдна распаўсюджаны. Ён стаў больш папулярным дзякуючы павелічэнню аб'ёмаў даных, удасканаленым алгарытмам і паляпшэнню вылічальнай магутнасці і захоўвання. У асноўным прыкладанне штучнага інтэлекту звязана з інтэлектуальнымі задачамі. Мы выкарыстоўваем штучны інтэлект для перакладу, распазнавання аб'ектаў, твараў і маўлення, выяўлення тэм, аналізу медыцынскіх малюнкаў, апрацоўкі натуральнай мовы, фільтрацыі сацыяльных сетак, гульні ў шахматы і г.д.

Машыннае навучанне

Машыннае навучанне - гэта прымяненне штучнага інтэлекту і адносіцца да сістэм, якія маюць магчымасць удасканальвацца з уласнага вопыту. Самае галоўнае тут тое, што сістэма павінна ўмець распазнаваць шаблоны. Каб зрабіць гэта, сістэму трэба навучыць: алгарытм перадае вялікія аб'ёмы даных, каб у нейкі момант ён мог вызначыць заканамернасці. Мэта складаецца ў тым, каб дазволіць кампутарам вучыцца аўтаматычна без умяшання або дапамогі чалавека.

Гаворачы аб машынным навучанні, важна згадаць глыбокае навучанне. Пачнем з таго, што адным з асноўных інструментаў глыбокага навучання з'яўляюцца штучныя нейронавыя сеткі. Гэта алгарытмы, натхнёныя структурай і функцыямі мозгу, нават калі яны, як правіла, статычныя і сімвалічныя, а не пластычныя і аналагавыя, як біялагічны мозг. Такім чынам, глыбокае навучанне - гэта спецыялізаваная форма машыннага навучання, заснаваная на штучнай нейронавай сетцы, мэта якой - паўтарыць спосаб навучання людзей, і гэта служыць выдатным інструментам для пошуку шаблонаў, якіх занадта шмат, каб праграміст мог навучыць машыну. У апошнія пару гадоў шмат гаварылася пра беспілотныя аўтамабілі і пра тое, як яны могуць змяніць наша жыццё. Тэхналогія глыбокага навучання з'яўляецца тут ключавой, таму што яна зніжае колькасць аварый, дазваляючы аўтамабілю адрозніваць пешахода ад пажарнага гідранта або распазнаваць чырвонае святло. Тэхналогія глыбокага навучання таксама адыгрывае галоўную ролю ў галасавым кіраванні ў такіх прыладах, як планшэты, тэлефоны, халадзільнікі, тэлевізары і г. д. Кампаніі электроннай камерцыі часта выкарыстоўваюць штучныя нейронавыя сеткі ў якасці сістэмы фільтрацыі, якая спрабуе прадказаць і паказаць элементы, якія карыстальнік хацеў бы купіць. Тэхналогія глыбокага навучання таксама выкарыстоўваецца ў медыцыне. Гэта дапамагае даследчыкам рака аўтаматычна выяўляць ракавыя клеткі і, такім чынам, уяўляе сабой велізарны прагрэс у лячэнні рака.

Распазнаванне маўлення

Тэхналогія распазнання маўлення служыць для ідэнтыфікацыі слоў і фраз з гутарковай мовы і пераўтварэння іх у зручны для чытання фармат для машыны. У той час як некаторыя праграмы могуць ідэнтыфікаваць толькі абмежаваную колькасць фраз, некаторыя больш дасканалыя праграмы распазнання маўлення могуць расшыфраваць натуральную гаворку.

Ці ёсць перашкоды, якія трэба пераадолець?

Нягледзячы на тое, што гэта зручна, тэхналогія распазнавання маўлення не заўсёды працуе гладка, і ў яе ўсё яшчэ ёсць некалькі праблем, якія трэба вырашыць, паколькі яна пастаянна развіваецца. Праблемы, якія могуць узнікнуць, могуць уключаць у сябе, сярод іншага, наступнае: якасць запісу можа быць недастатковай, могуць быць шумы на заднім плане, якія ўскладняюць разуменне таго, хто гаворыць, таксама можа быць, што той, хто гаворыць, мае вельмі моцны акцэнт або дыялект (вы калі-небудзь чулі джордскі дыялект?) і г.д.

Распазнаванне маўлення даволі моцна развілося, але яно яшчэ далёка ад дасканаласці. Не ўсё залежыць толькі ад слоў, машыны па-ранейшаму не могуць рабіць шмат чаго, што могуць людзі: яны не могуць прачытаць мову цела або распазнаць саркастычны тон у чыімсьці голасе. Людзі часта не вымаўляюць кожнае слова належным чынам і схільныя скарачаць некаторыя словы. Напрыклад, гаворачы хутка і нефармальна, носьбіты англійскай мовы часта вымаўляюць «збіраецца» як «збіраецца». Усё вышэйпералічанае стварае перашкоды для машын, якія яны спрабуюць пераадолець, але перад імі яшчэ доўгі шлях. Важна падкрэсліць, што ўсё больш і больш дадзеных паступае ў гэтыя канкрэтныя алгарытмы; праблемы, здаецца, памяншаюцца. Будучыня аўтаматызаванага распазнання маўлення выглядае светлай.

Галасавыя карыстальніцкія інтэрфейсы становяцца ўсё больш даступнымі і папулярнымі ў хатніх гаспадарках. Гэта нават можа стаць наступнай тэхналагічнай платформай.

Gglot прапануе аўтаматызаванае распазнаванне маўлення ў выглядзе сэрвісаў аўтаматызаванай транскрыпцыі - мы пераўтвараем прамовы ў тэкст. Наш сэрвіс просты ў выкарыстанні, ён не будзе каштаваць вам шмат, і гэта будзе зроблена хутка!