Яриа таних гэж яг юу вэ?

Яриа таних

Яриа таних талаар юу мэдэх хэрэгтэй вэ

Яриа таних тухай ярихдаа бид ихэвчлэн ярианы үгийг таньж, программд бичих чадвартай программ хангамжийг хэлдэг бөгөөд ингэснээр эцэст нь бичсэн хэлбэрээр ярьсан бүх зүйл танд байх болно. Үүнийг ихэвчлэн "ярианы текст" гэж нэрлэдэг. Эхэндээ програм хангамж нь маш хязгаарлагдмал боломжуудтай байсан тул та зөвхөн цөөн тооны хэллэгийг хөрвүүлэх боломжтой байв. Цаг хугацаа өнгөрөхөд яриа таних программ хангамжийн технологи маш их хөгжиж, одоо илүү боловсронгуй болсон тул өөр өөр хэл, бүр өөр өргөлтийг таних боломжтой болсон. Гэхдээ мэдээж энэ салбарт хийх ажил бий.

Хүмүүс заримдаа ижил зүйлд хоёр нэр томъёог ашигладаг ч яриа таних нь дуу хоолой танихтай адил биш гэдгийг анхаарах нь чухал юм. Дуу таних нь ярьж буй хүнийг танихад ашигладаг бөгөөд юу ярьж байгааг тэмдэглэхэд ашигладаггүй.

Яриа таних болон холбогдох технологийн товч түүх

Энэ нийтлэлд бид яриа таних технологи үүсч хөгжсөн түүх, технологийн талаар товч тайлбарлах болно.

Дижитал эрин үе эхэлснээс хойш хүмүүс ямар нэгэн байдлаар машинтай харилцах хүсэл эрмэлзэлтэй байсан. Анхны төрлийн дижитал компьютерийг зохион бүтээсний дараа олон тооны эрдэмтэн, инженерүүд энэ үйл явцад яриа таних аргыг ямар нэгэн байдлаар хэрэгжүүлэхийг оролдсон. Энэ үйл явцын чухал жил бол 1962 он бөгөөд IBM нь энгийн математик тооцоолол хийх чадвартай яриа таних үндсэн машин болох Shoebox-ыг танилцуулсан юм. Хэрэв энэ протокомпьютерийн хэрэглэгч микрофон руу ярих юм бол энэ машин "нэмэх" эсвэл "хасах" гэх мэт зургаан хүртэлх хяналтын үгийг таних боломжтой байв. Цаг хугацаа өнгөрөхөд үүний цаадах технологи хөгжиж, өнөөдөр компьютертэй дуу хоолойгоор харилцах нь маш нийтлэг шинж чанартай болсон. Siri эсвэл Alexa зэрэг яриа таних олон алдартай хөдөлгүүрүүд байдаг. Эдгээр дуу хоолойгоор удирддаг төхөөрөмжүүд нь хиймэл оюун ухаан (AI) болон машин сургалтаас хамаардаг гэдгийг анхаарах нь чухал юм.

Хиймэл оюун ухааныг (AI) дурдахад энэ нь шинжлэх ухааны уран зөгнөлт киноных шиг сонсогдож магадгүй ч өнөө үед хиймэл оюун ухаан манай ертөнцөд маш их үүрэг гүйцэтгэж байгаа нь үнэн юм. Үнэн хэрэгтээ хиймэл оюун ухаан нь бидний өдөр тутмын амьдралд аль хэдийн нэвтэрсэн, учир нь үүнийг олон програм, програмууд аль хэдийн ашигладаг. Гэхдээ энэ нэр томъёо гарч ирэх үед 20-р зууны эхэн үед шинжлэх ухааны уран зөгнөлт байсан. 1950-иад оны сүүлээр хиймэл оюун ухааны тухай ойлголт улам бүр нэмэгдэж, олон эрдэмтэн, философичдын анхаарлын төвд байв. Тэр үед Их Британийн Алан Тюринг хэмээх маш их амбицтай математикч машинууд байгаа мэдээлэлд тулгуурлан өөрөө асуудлыг шийдэж, шийдвэр гаргах боломжтой гэсэн санааг дэвшүүлжээ. Асуудал нь компьютерт эдгээр өгөгдлийг цээжлэх боломж хараахан болоогүй байсан нь хиймэл оюун ухааныг хөгжүүлэх чухал алхам юм. Тэр үед тэдний хийж чадах зүйл бол энгийн командуудыг гүйцэтгэх явдал байв.

Хиймэл оюун ухааныг хөгжүүлэх өөр нэг чухал нэр бол "хиймэл оюун ухаан" гэсэн нэр томъёог анх гаргасан Жон Маккарти юм. Маккарти хэлэхдээ хиймэл оюун ухаан бол "ухаалаг машин бүтээх шинжлэх ухаан, инженерчлэл" юм. Энэ тодорхойлолт нь 1956 онд Дартмут коллежид болсон чухал хурал дээр гарч ирсэн. Тэр цагаас хойш хиймэл оюун ухаан асар хурдацтай хөгжиж эхэлсэн.

Өнөөдөр хиймэл оюун ухаан нь янз бүрийн хэлбэрээр хаа сайгүй байдаг. Энэ нь дэлхий даяар өдөр бүр солилцож буй мэдээллийн нийт хэмжээ нэмэгдэж байгаатай холбоотой юм. Энэ нь дэвшилтэт алгоритмуудад ашиглагддаг бөгөөд энэ нь хадгалах болон тооцоолох хүчийг сайжруулахад хүргэсэн. AI-ийг орчуулга, хуулбарлах, яриа, царай, объектыг таних, эмнэлгийн зураглалд дүн шинжилгээ хийх, байгалийн хэлийг боловсруулах, олон нийтийн сүлжээний янз бүрийн шүүлтүүр гэх мэт олон зорилгоор ашигладаг. Их мастер Гари Каспаров, Deep Blue шатрын хиймэл оюун ухаан хоёрын хооронд болсон шатрын тоглолтыг санаж байна уу?

Гарчиггүй 7 1

Машины сургалт бол хиймэл оюун ухааны бас нэг чухал хэрэглээ юм. Товчхондоо, энэ нь өөрийн туршлагаас суралцах, мэдээллийн сангаас сайжруулах чадвартай аливаа системийг хэлнэ. Энэ нь хэв маягийг таних замаар ажилладаг. Үүнийг хийхийн тулд системийг сургах чадвартай байх ёстой. Системийн алгоритм нь их хэмжээний өгөгдлийн оролтыг хүлээн авдаг бөгөөд нэг цэгт энэ өгөгдлөөс хэв маягийг тодорхойлох боломжтой болдог. Энэхүү үйл явцын эцсийн зорилго нь эдгээр компьютерийн системийг хүний оролцоо, тусламжгүйгээр бие даан суралцах боломжийг олгох явдал юм.

Машины сургалтын хажуугаар бас нэг чухал зүйл бол гүнзгий суралцах явдал юм. Гүнзгий суралцах үйл явц дахь хамгийн чухал хэрэгслүүдийн нэг бол хиймэл мэдрэлийн сүлжээ юм. Эдгээр нь хүний тархины бүтэц, үйл ажиллагаатай төстэй дэвшилтэт алгоритмууд юм. Гэсэн хэдий ч тэдгээр нь хуванцар, аналог дээр суурилсан биологийн тархинаас ялгаатай нь хөдөлгөөнгүй, бэлгэдлийн шинж чанартай байдаг. Товчхондоо, энэхүү гүнзгий суралцах нь үндсэндээ хиймэл мэдрэлийн сүлжээнд суурилсан машин сургалтын маш нарийн мэргэжлийн арга юм. Гүнзгий суралцах зорилго нь хүний сурах үйл явцыг нягт нямбай хуулбарлах явдал юм. Гүн сургалтын технологи нь маш ашигтай бөгөөд дуу хоолойгоор удирддаг төрөл бүрийн төхөөрөмж болох таблет, зурагт, ухаалаг гар утас, хөргөгч гэх мэт чухал үүрэг гүйцэтгэдэг. Хиймэл мэдрэлийн сүлжээг мөн зүйлийг урьдчилан таамаглах зорилготой шүүлтүүрийн систем болгон ашигладаг. Хэрэглэгч ирээдүйд худалдан авах болно. Гүн сургалтын технологи нь анагаах ухааны салбарт ч маш өргөн хэрэглэгддэг. Энэ нь хорт хавдрын эсийг автоматаар илрүүлэхэд тусалдаг тул хорт хавдар судлаачдад маш чухал юм.

Одоо бид яриа танилт руу буцах болно. Энэхүү технологи нь бидний өмнө дурдсанчлан ярианы хэлний янз бүрийн үг, хэллэгийг тодорхойлох зорилготой юм. Дараа нь тэдгээрийг машин унших боломжтой формат руу хөрвүүлдэг. Үндсэн програмууд нь зөвхөн цөөн тооны түлхүүр хэллэгийг тодорхойлдог боловч яриа таних илүү дэвшилтэт програм хангамж нь бүх төрлийн байгалийн яриаг тайлах чадвартай байдаг. Яриа таних технологи нь ихэнх тохиолдолд тохиромжтой байдаг ч заримдаа бичлэгийн чанар хангалтгүй эсвэл арын чимээ шуугиантай байгаа нь чанга яригчийг зөв ойлгоход хэцүү үед асуудалтай тулгардаг. Илтгэгч үнэхээр хүчтэй аялгатай эсвэл аялгуутай байх үед энэ нь зарим асуудалтай тулгардаг. Яриа таних нь байнга хөгжиж байгаа боловч төгс төгөлдөр биш хэвээр байна. Бүх зүйл үг хэллэг биш, машинууд хүний хийж чадах олон зүйлийг хийх чадваргүй хэвээр байна, жишээлбэл тэд биеийн хэлэмж, хэн нэгний дуу хоолойны өнгө аясыг тайлж чаддаггүй. Гэсэн хэдий ч эдгээр дэвшилтэт алгоритмууд илүү их өгөгдлийг тайлж байгаа тул эдгээр сорилтуудын зарим нь хүндрэл багасч байх шиг байна. Ирээдүй юу авчрахыг хэн мэдэх вэ? Яриа таних үйл явц хаана дуусахыг таамаглахад хэцүү байдаг. Жишээлбэл, Google нь Google Translate хөдөлгүүрт яриа таних программ хангамжийг нэвтрүүлэхэд аль хэдийн маш их амжилтанд хүрсэн бөгөөд машин нь байнга суралцаж, хөгжиж байна. Хэзээ нэгэн цагт хүний орчуулагчдыг бүрмөсөн солих ч юм билүү. Үгүй ч байж магадгүй, өдөр тутмын ярианы нөхцөл байдал нь хүний сэтгэлийн гүнийг унших чадваргүй ямар ч төрлийн машинд хэтэрхий төвөгтэй байдаг.

Хэл таних аргыг хэзээ ашиглах вэ?

Одоо бараг бүх хүн ухаалаг утас эсвэл таблеттай. Яриа таних нь эдгээр төхөөрөмжүүдийн нийтлэг шинж чанар юм. Эдгээрийг хүний яриаг үйлдэл болгон хувиргахад ашигладаг. Хэрэв та эмээ рүүгээ залгахыг хүсвэл "Эмээ рүү залга" гэж командлахад л хангалттай бөгөөд таны утасны дугаарыг холбоо барих хаягаа бичих шаардлагагүйгээр ухаалаг гар утас чинь залгаж байна. Энэ бол яриа таних явдал юм. Үүний бас нэг сайн жишээ бол Alexa эсвэл Siri юм. Тэд мөн энэ функцийг өөрсдийн системд суулгасан байдаг. Google танд юу ч бичихгүйгээр дуу хоолойгоор юу ч хайх боломжийг олгодог.

Гарчиггүй 8 1

Магадгүй та одоо энэ бүхэн хэрхэн ажилладагийг сонирхож байгаа байх. Үүнийг ажиллуулахын тулд микрофон гэх мэт мэдрэгчийг програм хангамжид суулгасан байх ёстой бөгөөд ингэснээр ярианы дууны долгионыг таньж, шинжилж, дижитал формат руу хөрвүүлэх хэрэгтэй. Дараа нь дижитал мэдээллийг зарим төрлийн үг хэллэгийн санд хадгалагдсан бусад мэдээлэлтэй харьцуулах шаардлагатай. Тохиромжтой үед програм хангамж нь тушаалыг таньж, түүний дагуу ажиллах боломжтой.

Энэ үед дурдах ёстой бас нэг зүйл бол WER (word error rate) гэж нэрлэгддэг. Энэ бол алдааны тоог нийт үгэнд хуваах томъёо юм. Тэгэхээр энгийнээр тайлбарлавал нарийвчлалтай маш их холбоотой. Зорилго нь мэдээж бага WER-тэй байх явдал юм, учир нь энэ нь ярианы үгийн транскрипц илүү нарийвчлалтай гэсэн үг юм.

Яриа таних нь одоо урьдын адил эрэлт хэрэгцээтэй байна. Хэрэв та мөн бичигдсэн аудио файлаас ярианы үгийг текст болгон хөрвүүлэх шаардлагатай бол Gglot руу хандаж болно. Бид үнэн зөв орчуулгыг хямд үнээр санал болгодог транскрипцийн үйлчилгээ үзүүлэгч юм. Тиймээс манай хэрэглэгчдэд ээлтэй вэб сайтаар дамжуулан холбогдохоос бүү эргэлз.