Што такое распазнаванне маўлення?

Распазнаванне маўлення

Што вам трэба ведаць аб распазнанні маўлення

Калі мы гаворым пра распазнаванне маўлення, звычайна мы маем на ўвазе праграмнае забеспячэнне, якое мае магчымасць распазнаваць вымаўленае слова і запісваць яго ў праграму, каб у рэшце рэшт у вас было ўсё, што было прамоўлена ў пісьмовым фармаце. Яго таксама часта называюць «маўленнем у тэкст». Напачатку гэта праграмнае забеспячэнне мела вельмі абмежаваныя магчымасці, так што вы маглі канвертаваць толькі абмежаваную колькасць фраз. З цягам часу тэхналогія праграмнага забеспячэння для распазнавання маўлення значна развілася і стала значна больш складанай, таму можа распазнаваць розныя мовы і нават розныя акцэнты. Але, вядома, у гэтай сферы яшчэ трэба папрацаваць.

Таксама важна заўважыць, што распазнаванне маўлення - гэта не тое самае, што распазнаванне голасу, хаця часам людзі выкарыстоўваюць гэтыя два тэрміны для аднолькавага паняцця. Распазнаванне голасу выкарыстоўваецца для ідэнтыфікацыі чалавека, які гаворыць, а не для таго, каб адзначыць, што было сказана.

Кароткая гісторыя распазнання маўлення і звязаных з ім тэхналогій

У гэтым артыкуле мы коратка растлумачым гісторыю і тэхналогію развіцця распазнавання маўлення.

З самага пачатку лічбавай эры ў людзей было жаданне неяк мець магчымасць мець зносіны з машынамі. Пасля таго, як быў вынайдзены першы выгляд лічбавага кампутара, шматлікія навукоўцы і інжынеры спрабавалі рознымі спосабамі ўкараніць у гэты працэс распазнаванне маўлення. Вырашальным годам у гэтым працэсе стаў 1962 год, калі IBM прадставіла Shoebox, базавую машыну для распазнання маўлення, якая магла рабіць простыя матэматычныя вылічэнні. Калі карыстальнік гэтага протакампутара гаварыў у мікрафон, гэтая машына магла распазнаваць да шасці кантрольных слоў, такіх як «плюс» або «мінус». З цягам часу тэхналогія, якая ляжыць у аснове гэтага, развівалася, і сёння гэта вельмі распаўсюджаная функцыя ўзаемадзеяння з камп'ютарамі з дапамогай голасу. Ёсць шмат вядомых механізмаў распазнавання прамовы, такіх як Siri або Alexa. Важна адзначыць, што гэтыя галасавыя прылады залежаць ад штучнага інтэлекту (AI) і машыннага навучання.

Калі гаворка ідзе пра штучны інтэлект (ШІ), гэта можа здацца фантастычным фільмам, але праўда ў тым, што ў наш час ШІ адыгрывае вялікую ролю ў нашым свеце. Фактычна, штучны інтэлект ужо вельмі прысутнічае ў нашым паўсядзённым жыцці, бо многія праграмы і прыкладанні ўжо выкарыстоўваюць яго. Але гэта была навуковая фантастыка ў пачатку 20-га стагоддзя, калі гэты тэрмін з'явіўся. У канцы 1950-х гадоў канцэпцыі штучнага інтэлекту сталі больш вядомымі і былі ў цэнтры ўвагі многіх навукоўцаў і філосафаў. У той час вельмі амбіцыйны брытанскі матэматык Алан Цьюрынг выступіў з прапановай, што машыны могуць самастойна вырашаць праблемы і прымаць рашэнні на аснове ўводу даступнай інфармацыі. Праблема была ў тым, што кампутары яшчэ не мелі магчымасці запамінаць гэтыя дадзеныя, што з'яўляецца важным крокам для развіцця штучнага інтэлекту. Усё, што яны тады ўмелі - гэта выконваць простыя каманды.

Яшчэ адно важнае імя ў развіцці штучнага інтэлекту - Джон Макарці, які ўпершыню ўвёў сам тэрмін "штучны інтэлект". Макарці заявіў, што штучны інтэлект - гэта «навука і тэхніка стварэння інтэлектуальных машын». Гэта вызначэнне з'явілася на асноўнай канферэнцыі ў Дартмутскім каледжы ў 1956 годзе. З гэтага часу ІІ пачаў развівацца шалёнымі тэмпамі.

Сёння штучны інтэлект у розных яго формах прысутнічае ўсюды. Ён вырас да масавага прыняцця, галоўным чынам з-за павелічэння агульнага аб'ёму даных, якімі кожны дзень абменьваюцца ва ўсім свеце. Ён выкарыстоўваецца ў перадавых алгарытмах, і гэта прывяло да паляпшэння захоўвання і вылічальнай магутнасці. ШІ выкарыстоўваецца ў многіх мэтах, напрыклад, для перакладу, транскрыпцыі, маўлення, распазнання твараў і прадметаў, аналізу медыцынскіх малюнкаў, апрацоўкі натуральных моў, розных фільтраў сацыяльных сетак і гэтак далей. Памятаеце той шахматны матч паміж гросмайстрам Гары Каспаравым і шахматным штучным інтэлектам Deep Blue?

Без назвы 7 1

Машыннае навучанне - яшчэ адно вельмі важнае прымяненне штучнага інтэлекту. Карацей кажучы, гэта адносіцца да любых сістэм, якія маюць магчымасць вучыцца і ўдасканальвацца з базы дадзеных уласнага вопыту. Гэта працуе праз распазнаванне шаблонаў. Каб сістэма рабіла гэта, яе трэба навучыць. Алгарытм сістэмы атрымлівае на ўваходзе вялікія аб'ёмы даных, і ў адзін момант ён становіцца здольным ідэнтыфікаваць шаблоны з гэтых даных. Канчатковая мэта гэтага працэсу - дазволіць гэтым камп'ютэрным сістэмам вучыцца самастойна, без умяшання або дапамогі чалавека.

Яшчэ адна рэч, якую вельмі важна адзначыць разам з машынным навучаннем, - гэта глыбокае навучанне. Адным з найважнейшых інструментаў у працэсе глыбокага навучання з'яўляюцца так званыя штучныя нейронавыя сеткі. Гэта ўдасканаленыя алгарытмы, падобныя на структуру і функцыі чалавечага мозгу. Аднак яны статычныя і сімвалічныя, у адрозненне ад біялагічнага мозгу, які пластычны і больш заснаваны на аналагах. Карацей кажучы, гэта глыбокае навучанне - гэта вельмі спецыялізаваны спосаб машыннага навучання, у асноўным заснаваны на штучных нейронавых сетках. Мэтай глыбокага навучання з'яўляецца дакладнае паўтарэнне працэсаў навучання чалавека. Тэхналогія глыбокага навучання вельмі карысная і гуляе важную ролю ў розных прыладах, якія кіруюцца голасам - планшэтах, тэлевізарах, смартфонах, халадзільніках і г. д. Штучныя нейронавыя сеткі таксама выкарыстоўваюцца ў якасці своеасаблівай сістэмы фільтрацыі, якая накіравана на прагназаванне элементаў што карыстальнік купіў бы ў будучыні. Тэхналогія глыбокага навучання таксама вельмі шырока выкарыстоўваецца ў медыцынскай сферы. Гэта вельмі важна для даследчыкаў рака, таму што дапамагае аўтаматычна выяўляць ракавыя клеткі.

Зараз мы вернемся да распазнання прамовы. Гэтая тэхналогія, як мы ўжо згадвалі, накіравана на ідэнтыфікацыю розных слоў і фраз гутарковай мовы. Пасля ён пераўтворыць іх у фармат, які можа прачытаць машына. Базавыя праграмы вызначаюць толькі невялікую колькасць ключавых фраз, але некаторыя больш прасунутыя праграмы распазнання маўлення здольныя расшыфраваць усе віды натуральнай гаворкі. Тэхналогія распазнання гаворкі ў большасці выпадкаў зручная, але часам яна сутыкаецца з праблемамі, калі якасць запісу недастатковая або калі ёсць фонавыя шумы, якія ўскладняюць правільнае разуменне таго, хто гаворыць. Таксама могуць узнікнуць некаторыя праблемы, калі ў носьбіта вельмі моцны акцэнт або дыялект. Распазнаванне маўлення пастаянна развіваецца, але яно яшчэ не зусім ідэальнае. Не ўсё залежыць ад слоў, машыны па-ранейшаму не здольныя на многія рэчы, якія могуць рабіць людзі, напрыклад, яны не ў стане расшыфраваць мову цела або тон чыйгосьці голасу. Аднак па меры таго, як гэтыя ўдасканаленыя алгарытмы расшыфроўваюць больш дадзеных, складанасць некаторых з гэтых праблем, здаецца, памяншаецца. Хто ведае, што прынясе будучыня? Цяжка прадказаць, да чаго скончыцца распазнаванне маўлення. Напрыклад, Google ужо мае вялікі поспех ва ўкараненні праграмнага забеспячэння для распазнання гаворкі ў рухавікі Google Translate, і машына пастаянна вучыцца і развіваецца. Магчыма, аднойчы яны цалкам заменяць людзей-перакладчыкаў. А можа і не, паўсядзённыя маўленчыя сітуацыі занадта складаныя для любой машыны, якая не здольная прачытаць глыбіню чалавечай душы.

Калі выкарыстоўваць распазнаванне маўлення?

Сёння практычна ў кожнага ёсць смартфон або планшэт. Распазнаванне маўлення з'яўляецца звычайнай функцыяй гэтых прылад. Яны выкарыстоўваюцца для пераўтварэння гаворкі чалавека ў дзеянне. Калі вы хочаце патэлефанаваць сваёй бабулі, вам дастаткова каманды «патэлефанаваць бабулі», і ваш смартфон ужо набярэ нумар без неабходнасці набіраць спісы кантактаў. Гэта распазнаванне маўлення. Яшчэ адзін добры прыклад - Alexa або Siri. У іх сістэме таксама ёсць гэтая функцыя. Google таксама дае вам магчымасць шукаць што заўгодна з дапамогай голасу, нічога не ўводзячы.

Без назвы 8 1

Магчыма, вам зараз цікава, як усё гэта працуе. Ну, каб гэта працавала, у праграмнае забеспячэнне павінны быць убудаваны такія датчыкі, як мікрафоны, каб гукавыя хвалі вымаўленых слоў распазнаваліся, аналізаваліся і пераўтвараліся ў лічбавы фармат. Затым лічбавую інфармацыю трэба параўнаць з іншай інфармацыяй, якая захоўваецца ў нейкім сховішчы слоў і выразаў. Пры супадзенні праграмнае забеспячэнне можа распазнаць каманду і дзейнічаць адпаведна.

Яшчэ адна рэч, якую трэба згадаць на дадзены момант, гэта так званы WER (частот памылак слова). Гэта формула, у якой вы дзеліце лік памылкі на агульную колькасць слоў. Такім чынам, кажучы простымі словамі, гэта шмат у чым звязана з дакладнасцю. Вядома, мэта складаецца ў тым, каб мець нізкі WER, таму што гэта азначае, што транскрыпцыя вымаўленага слова больш дакладная.

Распазнаванне маўлення цяпер запатрабавана як ніколі. Калі вам таксама трэба пераўтварыць прамоўленае слова з, скажам, запісанага аўдыяфайла ў тэкст, вы можаце звярнуцца да Gglot. Мы - пастаўшчык паслуг транскрыпцыі, які прапануе дакладныя транскрыпцыі па справядлівай цане. Такім чынам, не саромейцеся звязацца праз наш зручны вэб-сайт.