Ի՞նչ է իրականում խոսքի ճանաչումը:

Խոսքի ճանաչում

Ինչ դուք պետք է իմանաք խոսքի ճանաչման մասին

Երբ մենք խոսում ենք խոսքի ճանաչման մասին, սովորաբար մենք նկատի ունենք ծրագրակազմ, որն ունի խոսակցական խոսքը ճանաչելու և այն ծրագրում գրելու ունակություն, այնպես որ, ի վերջո, դուք ունեք այն ամենը, ինչ ասվել է գրավոր ձևաչափով: Այն նաև հաճախ կոչվում է «խոսք դեպի տեքստ»: Սկզբում այդ ծրագրաշարը շատ սահմանափակ հնարավորություններ ուներ, այնպես որ կարող էիր փոխակերպել միայն սահմանափակ թվով արտահայտություններ։ Ժամանակի ընթացքում խոսքի ճանաչման ծրագրաշարի հիմքում ընկած տեխնոլոգիան շատ է զարգացել, և այն այժմ շատ ավելի բարդ է, այնպես որ կարող է ճանաչել տարբեր լեզուներ և նույնիսկ տարբեր շեշտադրումներ: Բայց, իհարկե, այս ոլորտում դեռ աշխատանք կա անելու։

Կարևոր է նաև նկատել, որ խոսքի ճանաչումը նույնը չէ, ինչ ձայնի ճանաչումը, չնայած երբեմն մարդիկ օգտագործում են երկու տերմինները նույն բանի համար: Ձայնի ճանաչումն օգտագործվում է խոսող անձի նույնականացման համար և ոչ թե ասվածը նշելու համար:

Խոսքի ճանաչման և հարակից տեխնոլոգիայի կարճ պատմություն

Այս հոդվածում մենք հակիրճ կբացատրենք խոսքի ճանաչման առաջացման պատմությունը և տեխնոլոգիան:

Դեռևս թվային դարաշրջանի սկզբից մարդիկ ցանկություն ունեին ինչ-որ կերպ կարողանալ շփվել մեքենաների հետ: Թվային համակարգչի առաջին տեսակի հայտնագործումից հետո բազմաթիվ գիտնականներ և ինժեներներ տարբեր ձևերով փորձել են ինչ-որ կերպ ներդնել խոսքի ճանաչումը այս գործընթացում: Այս գործընթացի վճռորոշ տարին 1962-ն էր, երբ IBM-ը բացահայտեց Shoebox-ը՝ խոսքի ճանաչման հիմնական մեքենան, որն ի վիճակի էր կատարել պարզ մաթեմատիկական հաշվարկներ: Եթե այս պրոհամակարգչի օգտատերը խոսեր խոսափողի մեջ, այս մեքենան կարող էր ճանաչել մինչև վեց հսկիչ բառեր, ինչպիսիք են «գումարած» կամ «մինուս»: Ժամանակի ընթացքում դրա հիմքում ընկած տեխնոլոգիան զարգացավ, և այսօր համակարգիչների հետ ձայնով շփվելը շատ տարածված հատկություն է: Կան շատ հայտնի խոսքի ճանաչման շարժիչներ, ինչպիսիք են Siri-ն կամ Alexa-ն: Կարևոր է նշել, որ այս ձայնային սարքերը կախված են արհեստական բանականությունից (AI) և մեքենայական ուսուցումից:

Երբ նշվում է արհեստական ինտելեկտը (AI), այն կարող է հնչել գիտաֆանտաստիկ ֆիլմից, բայց ճշմարտությունն այն է, որ մեր օրերում AI-ն մեծ դեր է խաղում մեր աշխարհում: Իրականում, AI-ն արդեն շատ առկա է մեր առօրյա կյանքում, քանի որ շատ ծրագրեր և հավելվածներ արդեն օգտագործում են այն: Բայց դա գիտաֆանտաստիկա էր 20-րդ դարի սկզբին, երբ հայտնվեց տերմինը։ 1950-ի վերջերին արհեստական ինտելեկտի գաղափարներն ավելի ակնառու դարձան և շատ գիտնականների և փիլիսոփաների ուշադրության կենտրոնում էին: Այդ ժամանակ շատ հավակնոտ բրիտանացի մաթեմատիկոս Ալան Թյուրինգը հանդես եկավ առաջարկությամբ, որ մեքենաները կարող են ինքնուրույն լուծել խնդիրները և որոշումներ կայացնել՝ հիմնվելով առկա տեղեկատվության վրա: Խնդիրն այն էր, որ համակարգիչները դեռ հնարավորություն չունեին հիշելու այդ տվյալները, ինչը կարևոր քայլ է արհեստական ինտելեկտի զարգացման համար։ Այն ամենը, ինչ նրանք կարող էին անել այն ժամանակ, պարզ հրամաններ կատարելն էր:

AI-ի զարգացման մեկ այլ կարևոր անուն է Ջոն Մաքքարթին, ով առաջին անգամ ստեղծեց «արհեստական ինտելեկտ» տերմինը: Մակքարթին ասաց, որ AI-ն «խելացի մեքենաներ պատրաստելու գիտությունն ու ճարտարագիտությունն է»: Այս սահմանումը լույս է տեսել 1956 թվականին Դարտմութ քոլեջի հիմնական համաժողովում: Այդ ժամանակվանից AI-ն սկսեց զարգանալ կատաղի տեմպերով:

Այսօր արհեստական ինտելեկտն իր տարբեր ձևերով առկա է ամենուր։ Այն հասել է զանգվածային ընդունման՝ հիմնականում պայմանավորված ամբողջ աշխարհում ամեն օր փոխանակվող տվյալների ընդհանուր ծավալի ավելացմամբ: Այն օգտագործվում է առաջադեմ ալգորիթմներում և առաջացրել է բարելավումներ պահեստավորման և հաշվողական հզորության մեջ: AI-ն օգտագործվում է բազմաթիվ նպատակներով, օրինակ՝ թարգմանություն, տառադարձում, խոսքի, դեմքերի և առարկաների ճանաչում, բժշկական պատկերների վերլուծություն, բնական լեզուների մշակում, սոցիալական ցանցերի տարբեր զտիչներ և այլն: Հիշու՞մ եք գրոսմայստեր Գարի Կասպարովի և Deep Blue chess AI-ի շախմատային մրցամարտը:

Անվերնագիր 7 1

Մեքենայական ուսուցումը արհեստական ինտելեկտի ևս մեկ շատ կարևոր կիրառություն է: Մի խոսքով, դա վերաբերում է ցանկացած համակարգերի, որոնք հնարավորություն ունեն սովորելու և կատարելագործվելու սեփական փորձի տվյալների բազայից: Սա աշխատում է օրինաչափությունների ճանաչման միջոցով: Որպեսզի համակարգը դա անի, այն պետք է կարողանա վերապատրաստվել: Համակարգի ալգորիթմը ստանում է մեծ քանակությամբ տվյալների մուտքագրում, և մի պահ այն կարողանում է նույնականացնել օրինաչափությունները այդ տվյալներից: Այս գործընթացի վերջնական նպատակն է հնարավորություն տալ այս համակարգչային համակարգերին ինքնուրույն սովորել՝ առանց մարդկային միջամտության կամ օգնության կարիքի:

Մեկ այլ բան, որը շատ կարևոր է նշել մեքենայական ուսուցման կողքին, խորը ուսուցումն է: Խորը ուսուցման գործընթացում ամենակարեւոր գործիքներից են այսպես կոչված արհեստական նեյրոնային ցանցերը։ Դրանք զարգացած ալգորիթմներ են, որոնք նման են մարդու ուղեղի կառուցվածքին և գործառույթին: Այնուամենայնիվ, դրանք ստատիկ են և խորհրդանշական, ի տարբերություն կենսաբանական ուղեղի, որը պլաստիկ է և ավելի անալոգային: Մի խոսքով, այս խորը ուսուցումը մեքենայական ուսուցման շատ մասնագիտացված ձև է, որը հիմնականում հիմնված է արհեստական նեյրոնային ցանցերի վրա: Խորը ուսուցման նպատակն է սերտորեն կրկնել մարդկային ուսուցման գործընթացները: Խորը ուսուցման տեխնոլոգիան շատ օգտակար է, և այն կարևոր դեր է խաղում ձայնի միջոցով կառավարվող տարբեր սարքերում՝ պլանշետներ, հեռուստացույցներ, սմարթֆոններ, սառնարաններ և այլն: Արհեստական նեյրոնային ցանցերը նաև օգտագործվում են որպես զտիչ համակարգ, որի նպատակն է կանխատեսել իրերը: որ օգտագործողը կգնի ապագայում: Խորը ուսուցման տեխնոլոգիան նույնպես շատ լայնորեն կիրառվում է բժշկական ոլորտում: Այն շատ կարևոր է քաղցկեղի հետազոտողների համար, քանի որ այն օգնում է ինքնաբերաբար հայտնաբերել քաղցկեղի բջիջները։

Այժմ մենք կվերադառնանք խոսքի ճանաչմանը: Այս տեխնոլոգիան, ինչպես արդեն նշեցինք, նպատակ ունի բացահայտելու խոսակցական լեզվի տարբեր բառերն ու արտահայտությունները: Այնուհետև դրանք փոխակերպում է այնպիսի ձևաչափի, որը մեքենան կարող է կարդալ: Հիմնական ծրագրերը բացահայտում են միայն մի քանի հիմնական բառակապակցություններ, սակայն խոսքի ճանաչման ավելի առաջադեմ ծրագրերը ի վիճակի են վերծանել բնական խոսքի բոլոր տեսակները: Խոսքի ճանաչման տեխնոլոգիան շատ դեպքերում հարմար է, սակայն այն երբեմն բախվում է խնդիրների, երբ ձայնագրության որակը բավարար չէ, կամ երբ ֆոնային աղմուկներ կան, որոնք դժվարացնում են բարձրախոսին ճիշտ հասկանալը: Այն կարող է նաև որոշակի խնդիրների հանդիպել, երբ խոսողը իսկապես ուժեղ առոգանություն կամ բարբառ ունի: Խոսքի ճանաչումը մշտապես զարգանում է, բայց այն դեռ այնքան էլ կատարյալ չէ: Ամեն ինչ չէ, որ խոսքը վերաբերում է բառերին, մեքենաները դեռևս ունակ չեն շատ բաների, որոնք մարդիկ կարող են անել, օրինակ՝ նրանք չեն կարողանում վերծանել մարմնի լեզուն կամ ինչ-որ մեկի ձայնի տոնը: Այնուամենայնիվ, քանի որ ավելի շատ տվյալներ են վերծանվում այս առաջադեմ ալգորիթմների միջոցով, այս մարտահրավերներից որոշները կարծես թե դժվարությամբ են նվազում: Ո՞վ գիտի, թե ինչ է բերելու ապագան: Դժվար է կանխատեսել, թե որտեղ կավարտվի խոսքի ճանաչումը: Օրինակ, Google-ը արդեն մեծ հաջողություններ է գրանցում Google Translate-ի շարժիչներում խոսքի ճանաչման ծրագրային ապահովման ներդրման հարցում, և մեքենան անընդհատ սովորում և զարգանում է: Գուցե մի օր նրանք ամբողջությամբ փոխարինեն մարդկային թարգմանիչներին։ Կամ գուցե ոչ, ամենօրյա խոսքի իրավիճակները չափազանց բարդ են ցանկացած տեսակի մեքենայի համար, որն ի վիճակի չէ կարդալ մարդու հոգու խորությունը:

Ե՞րբ օգտագործել խոսքի ճանաչումը:

Մեր օրերում գրեթե բոլորն ունեն սմարթֆոն կամ պլանշետ։ Խոսքի ճանաչումը այդ սարքերում սովորական հատկություն է: Դրանք օգտագործվում են մարդու խոսքը գործի վերածելու համար: Եթե ցանկանում եք զանգահարել ձեր տատիկին, բավական է հրամայեք «զանգել տատիկին», և ձեր սմարթֆոնն արդեն հավաքում է համարը՝ առանց մուտքագրելու ձեր կոնտակտների ցուցակները: Սա խոսքի ճանաչում է: Դրա մեկ այլ լավ օրինակ է Alexa-ն կամ Siri-ն: Նրանք նաև ունեն այս հատկությունը կոշտ լարերով իրենց համակարգում: Google-ը ձեզ հնարավորություն է տալիս նաև ձայնով որոնել որևէ բան՝ առանց որևէ բան մուտքագրելու:

Անվերնագիր 8 1

Գուցե դուք հիմա հետաքրքրված եք, թե ինչպես է այս ամենը աշխատում: Դե, որպեսզի այն աշխատի, միկրոֆոնների նման սենսորները պետք է ներկառուցվեն ծրագրային ապահովման մեջ, որպեսզի ասված բառերի ձայնային ալիքները ճանաչվեն, վերլուծվեն և վերածվեն թվային ձևաչափի: Այնուհետև թվային տեղեկատվությունը պետք է համեմատվի այլ տեղեկատվության հետ, որը պահվում է ինչ-որ բառերի և արտահայտությունների պահոցում: Երբ համընկնում է, ծրագրաշարը կարող է ճանաչել հրամանը և համապատասխանաբար գործել:

Եվս մեկ բան, որը պետք է նշել այս պահին, այսպես կոչված WER-ն է (բառի սխալի մակարդակը): Սա բանաձև է, որտեղ սխալի թիվը բաժանում եք բառերի ընդհանուրի հետ: Այսպիսով, պարզ ասած, այն շատ բան ունի ճշգրտության հետ: Նպատակն իհարկե ցածր WER ունենալն է, քանի որ դա նշանակում է, որ խոսակցական խոսքի տառադարձումն ավելի ճշգրիտ է:

Խոսքի ճանաչումն այժմ պահանջված է այնքան, որքան երբևէ: Եթե Ձեզ անհրաժեշտ է նաև ասենք ձայնագրված աուդիո ֆայլը փոխակերպել տեքստի, կարող եք դիմել Gglot-ին: Մենք տառադարձման ծառայություններ մատուցող ենք, որն առաջարկում է ճշգրիտ տառադարձումներ արդար գնով: Այսպիսով, մի հապաղեք կապ հաստատել մեր օգտագործողի համար հարմար կայքի միջոցով: