Сөйләм тануны аңлау: ЯИ роле

Сөйләм тану

Сөйләшүне тану турында нәрсә белергә кирәк

Сөйләшүне тану турында сүз барганда, без гадәттә әйтелгән сүзне таный белү һәм аны программага язу сәләте булган программа тәэминаты дигәнне аңлата, ахыр чиктә сездә язма форматта әйтелгәннәрнең барысы да бар. Бу шулай ук еш “сөйләмнән текстка” дип атала. Башта бу программа бик чикләнгән мөмкинлекләргә ия иде, шуңа күрә сез чикләнгән сандагы фразаларны үзгәртә аласыз. Вакыт узу белән, сөйләм тану программасының технологиясе бик күп үсеш алды һәм хәзерге вакытта катлаулырак, ул төрле телләрне, хәтта төрле акцентларны таный ала. Ләкин, әлбәттә, бу өлкәдә эшләнергә тиешле эш бар.

Шунысын да әйтергә кирәк, сөйләм тану тавышны тану белән бертигез түгел, гәрчә кешеләр ике терминны бер үк нәрсә өчен куллансалар да. Тавыш тану сөйләгән кешене ачыклау һәм әйтелгәннәргә игътибар итмәү өчен кулланыла.

Сөйләшүне тану һәм аңа бәйле технологиянең кыска тарихы

Бу мәкаләдә без сөйләм тану арту тарихын һәм технологиясен кыскача аңлатырбыз.

Санлы гасыр башыннан ук кешеләр ничектер машиналар белән аралаша белергә омтылдылар. Беренче төр санлы санак уйлап табылганнан соң, күп галимнәр һәм инженерлар төрле ысуллар белән бу процесска сөйләм тануны кертү өчен тырыштылар. Бу процессның иң мөһим елы 1962 иде, IBM гади математика исәпләүләрен ясый алган төп сөйләм тану машинасы Shoebox-ны ачкач. Әгәр дә бу компьютер кулланучы микрофон белән сөйләшсә, бу машина "плюс" яки "минус" кебек алтыга кадәр контроль сүзләрне таный алды. Вакыт узу белән, моның технологиясе үсеш алды һәм бүгенге көндә компьютерлар белән тавыш белән аралашу бик еш очрый. Сири яки Алекса кебек танылган танып белү двигательләре бар. Бу тавыш белән идарә итүче җайланмалар ясалма интеллектка (AI) һәм машина өйрәнүенә бәйле булуын искәртү мөһим.

Ясалма интеллект (ЯИ) искә алынганда, ул фантастик фильмнан нәрсәдер кебек тоелырга мөмкин, ләкин хакыйкать шунда: бүгенге заманда һәм заманда ЯИ безнең дөньяда зур роль уйный. Чынлыкта, ЯИ безнең көндәлек тормышыбызда бик күп, чөнки күп программалар һәм кушымталар аны куллана. Ләкин бу термин барлыкка килгәндә, XX гасыр башында фантастика иде. 1950 азагында ЯИ төшенчәләре тагын да күренде һәм күп галимнәрнең һәм фәлсәфәчеләрнең игътибар үзәгендә булды. Ул вакытта, Алан Тюринг исемле бик амбицияле Британия математикасы, машиналар булган проблемаларны кертеп, проблемаларны чишә һәм үзләре карар кабул итә ала дигән тәкъдим ясады. Проблема шунда ки, компьютерларның ясалма интеллектны үстерү өчен мөһим адым булган бу мәгълүматны ятлау мөмкинлеге юк иде. Ул вакытта алар бары тик гади боерыкларны үтәү иде.

ЯИ үсешендә тагын бер мөһим исем - Джон МакКарти, ул башта "ясалма интеллект" терминын уйлап чыгарган. МакКарти ЯИ: "акыллы машиналар ясау фәне һәм инженериясе" дип әйтте. Бу билгеләмә 1956-нчы елда Дартмут көллиятендәге семинар конференциядә ачыкланды. Шул вакыттан ЯИ бик тиз темп белән үсә башлады.

Бүгенге көндә ясалма интеллект аның төрле формасында бар. Ул массакүләм кабул итүгә үсә, күбесенчә көн саен бөтен дөньяда алмашыла торган мәгълүматларның гомуми күләменең артуы аркасында. Алга киткән алгоритмнарда кулланыла, һәм ул саклау һәм исәпләү көчен яхшыртуга китерде. ЯИ күп максатларда кулланыла, мәсәлән, тәрҗемә, транскрипция, сөйләм, йөз һәм объектны тану, медицина образларын анализлау, табигый телләрне эшкәртү, төрле социаль челтәр фильтрлары һ.б. Гроссмейстер Гари Каспаров белән Зәңгәр шахмат ЯИ арасында шахмат матчын хәтерлисезме?

Машина өйрәнү - ясалма интеллектның тагын бер мөһим кулланылышы. Кыскасы, бу үз тәҗрибәләре базасыннан өйрәнү һәм камилләштерү сәләтенә ия булган теләсә нинди системага кагыла. Бу үрнәкләрне тану аша эшли. Система моның өчен аны әзерләргә тиеш. Системаның алгоритмы күп күләмдә мәгълүмат кертә, һәм бервакыт ул шул мәгълүматларның үрнәкләрен ачыклый ала. Бу процессның ахыргы максаты - бу санак системаларына мөстәкыйль өйрәнергә мөмкинлек бирү, кеше катнашуы яки ярдәме кирәксез.

Машина өйрәнү белән беррәттән тагын бер мөһим нәрсә - тирәнтен өйрәнү. Тирән өйрәнү процессында иң мөһим коралларның берсе - ясалма нейрон челтәрләр. Алар кеше миенең структурасына һәм функциясенә охшаган алдынгы алгоритмнар. Ләкин, алар статик һәм символик, биологик мидән аермалы буларак, пластик һәм аналогка нигезләнгән. Кыскасы, бу тирәнтен өйрәнү - ясалма нейрон челтәрләргә нигезләнгән машина өйрәнүнең бик махсуслаштырылган ысулы. Тирән өйрәнүнең максаты - кешенең уку процессларын тыгыз кабатлау. Тирән өйрәнү технологиясе бик файдалы, һәм ул тавыш белән идарә итүче төрле җайланмаларда мөһим роль уйный - планшетлар, телевизорлар, смартфоннар, суыткычлар һ.б. Ясалма нейрон челтәрләр шулай ук әйберләрне алдан әйтергә теләгән фильтрлау системасы буларак кулланыла. кулланучы киләчәктә сатып алыр иде. Тирән өйрәнү технологиясе медицина өлкәсендә дә киң кулланыла. Бу рак тикшерүчеләре өчен бик мөһим, чөнки ул рак күзәнәкләрен автоматик рәвештә ачыкларга ярдәм итә.

Хәзер без сөйләм тануга кайтачакбыз. Бу технология, алда әйтеп үткәнебезчә, сөйләм теленең төрле сүзләрен һәм гыйбарәләрен ачыкларга омтыла. Соңыннан ул аларны машина укый алган форматка әйләндерә. Төп программалар аз санлы төп фразаларны гына билгели, ләкин кайбер алдынгы сөйләм тану программалары барлык төр табигый сөйләмнәрне шифрлый ала. Сөйләмне тану технологиясе күпчелек очракта уңайлы, ләкин ул кайвакыт язу сыйфаты яхшы булмаганда яки спикерны дөрес аңлау кыенлаштырган фон тавышлары булганда проблемалар белән очраша. Докладчы бик көчле акцент яки диалект булганда, ул шулай ук кайбер проблемалар белән очрашырга мөмкин. Сөйләмне танып белү гел үсә, ләкин ул әле дә камил түгел. Барысы да сүзләр турында түгел, машиналар әле кешеләр эшли алырлык күп нәрсәләргә сәләтле түгел, мәсәлән, алар тән телен яки кемнеңдер тавышын шифрлый алмыйлар. Ләкин, бу алдынгы алгоритмнар белән күбрәк мәгълүмат шифрланганлыктан, бу проблемаларның кайберләре кыенлык кими кебек. Киләчәк нәрсә китерәчәген кем белә? Сөйләшүне тану кайда бетәчәген алдан әйтү кыен. Мәсәлән, Google тәрҗемә итү двигательләрендә сөйләм тану программасын кертүдә Google бик зур уңышларга ирешә, һәм машина гел өйрәнә һәм үсә. Бәлки беркөнне алар кеше тәрҗемәчеләрен тулысынча алыштырырлар. Яки, бәлки, юк, көндәлек сөйләм ситуацияләре кеше җанының тирәнлеген укый алмаган теләсә нинди машина өчен бик катлаулы.

Сөйләшүне тану кайчан кулланырга?

Хәзерге вакытта һәркемнең диярлек смартфоны яки планшеты бар. Сөйләшүне тану - бу җайланмаларда киң таралган үзенчәлек. Алар кеше сөйләмен эшкә әйләндерү өчен кулланыла. Әгәр дә сез әбиегезгә шалтыратырга телисез икән, "әбигә шалтыратырга" кушуыгыз җитә, һәм смартфоныгыз контакт исемлекләрен язмыйча, номерны терә. Бу сөйләм тану. Аның тагын бер яхшы мисалы - Алекса яки Сири. Аларда шулай ук үз системасында каты чыбыклы бу үзенчәлек бар. Google сезгә шулай ук бернәрсә дә язмыйча, тавыш белән эзләү мөмкинлеген бирә.

Бәлки сез хәзер боларның ничек эшләве белән кызыксынасыз. Эшләсен өчен, микрофон кебек сенсорлар программага кертелергә тиеш, шулай итеп әйтелгән сүзләрнең тавыш дулкыннары таныла, анализлана һәм санлы форматка күчә. Аннары цифрлы мәгълүматны башка сүзләр белән чагыштырырга кирәк, алар ниндидер сүзләрдә һәм әйтемнәрдә сакланган. Матч булганда программа тәэминаты команданы таный һәм шуңа эш итә ала.

Бу вакытта искә төшерергә кирәк булган тагын бер нәрсә - WER дип атала (сүзнең хата ставкасы). Бу формула, анда сез хаталар санын гомуми сүзләр белән бүләсез. Шулай итеп, гади сүзләр белән әйткәндә, аның төгәллек белән күп эше бар. Максат, әлбәттә, түбән WER булу, чөнки бу әйтелгән сүзнең транскрипциясе төгәлрәк дигән сүз.

Сөйләшүне тану хәзерге кебек үк кирәк. Әгәр дә сезгә сөйләнгән сүзне язылган аудио файлны текстка күчерергә кирәк икән, сез Gglotка мөрәҗәгать итә аласыз. Без транскрипция хезмәтен күрсәтүче, гадел бәягә төгәл транскрипцияләр тәкъдим итәбез. Шулай итеп, безнең кулланучылар өчен уңайлы сайт аша элемтәгә керергә курыкмагыз.

Сөйләшүне тану нәрсә ул?

Ярат

Чагыштырыгыз

Legalридик