Კონკრეტულად რა არის მეტყველების ამოცნობა?
Სიტყვის აღიარება
Რა უნდა იცოდეთ მეტყველების ამოცნობის შესახებ
Როდესაც ვსაუბრობთ მეტყველების ამოცნობაზე, ჩვეულებრივ ვგულისხმობთ პროგრამულ უზრუნველყოფას, რომელსაც აქვს სალაპარაკო სიტყვის ამოცნობის და პროგრამაში ჩაწერის უნარი, ასე რომ, საბოლოო ჯამში, თქვენ გაქვთ ყველაფერი, რაც ნათქვამია წერილობით ფორმატში. მას ასევე ხშირად მოიხსენიებენ, როგორც "მეტყველება ტექსტში". თავიდან ამ პროგრამულ უზრუნველყოფას ჰქონდა ძალიან შეზღუდული შესაძლებლობები, ასე რომ თქვენ შეგეძლოთ მხოლოდ შეზღუდული რაოდენობის ფრაზების კონვერტაცია. დროთა განმავლობაში, მეტყველების ამოცნობის პროგრამული უზრუნველყოფის ტექნოლოგია ძალიან განვითარდა და ახლა ის ბევრად უფრო დახვეწილია, ასე რომ მას შეუძლია ამოიცნოს სხვადასხვა ენა და სხვადასხვა აქცენტიც კი. მაგრამ, რა თქმა უნდა, ჯერ კიდევ არის სამუშაო ამ სფეროში.
Ასევე მნიშვნელოვანია აღინიშნოს, რომ მეტყველების ამოცნობა არ არის იგივე, რაც ხმის ამოცნობა, მიუხედავად იმისა, რომ ზოგჯერ ადამიანები იყენებენ ამ ორ ტერმინს ერთი და იგივე ნივთისთვის. ხმის ამოცნობა გამოიყენება მოლაპარაკე პირის იდენტიფიკაციისთვის და არა ნათქვამის აღსანიშნავად.
Მეტყველების ამოცნობისა და მასთან დაკავშირებული ტექნოლოგიების მოკლე ისტორია
Ამ სტატიაში ჩვენ მოკლედ ავხსნით მეტყველების ამოცნობის გაჩენის ისტორიასა და ტექნოლოგიას.
Ციფრული ეპოქის გარიჟრაჟიდან მოყოლებული, ადამიანებს ჰქონდათ სურვილი, როგორმე შეძლებოდათ კომუნიკაცია მანქანებთან. ციფრული კომპიუტერის პირველი სახეობის გამოგონების შემდეგ, მრავალი მეცნიერი და ინჟინერი ცდილობდა სხვადასხვა გზით როგორმე დაენერგა მეტყველების ამოცნობა ამ პროცესში. ამ პროცესის გადამწყვეტი წელი იყო 1962 წელი, როდესაც IBM-მა გამოავლინა Shoebox, მეტყველების ამოცნობის ძირითადი მანქანა, რომელსაც შეეძლო მარტივი მათემატიკური გამოთვლების გაკეთება. თუ ამ პროტო-კომპიუტერის მომხმარებელი საუბრობდა მიკროფონში, ამ მანქანას შეეძლო ამოიცნო ექვსამდე საკონტროლო სიტყვა, როგორიცაა "პლუს" ან "მინუს". დროთა განმავლობაში, ამის მიღმა ტექნოლოგია განვითარდა და დღეს ძალიან გავრცელებული ფუნქციაა კომპიუტერებთან ხმით ურთიერთობა. არსებობს მრავალი ცნობილი მეტყველების ამოცნობის ძრავა, როგორიცაა Siri ან Alexa. მნიშვნელოვანია აღინიშნოს, რომ ეს ხმოვანი მოწყობილობები დამოკიდებულია ხელოვნურ ინტელექტზე (AI) და მანქანურ სწავლაზე.
Როდესაც ხელოვნური ინტელექტი (AI) არის ნახსენები, ეს შეიძლება ჟღერდეს რაღაც სამეცნიერო ფანტასტიკის ფილმიდან, მაგრამ სიმართლე ისაა, რომ დღევანდელ დღეებში ხელოვნური ინტელექტი დიდ როლს თამაშობს ჩვენს სამყაროში. სინამდვილეში, AI უკვე ძალიან არის წარმოდგენილი ჩვენს ყოველდღიურ ცხოვრებაში, რადგან ბევრი პროგრამა და აპლიკაცია უკვე იყენებს მას. მაგრამ ეს იყო სამეცნიერო ფანტასტიკა მე-20 საუკუნის დასაწყისში, როდესაც ტერმინი გაჩნდა. 1950 წლის მიწურულს ხელოვნური ინტელექტის ცნებები უფრო თვალსაჩინო გახდა და მრავალი მეცნიერისა და ფილოსოფოსის ინტერესის ყურადღების ცენტრში იყო. იმ დროს, ძალიან ამბიციურმა ბრიტანელმა მათემატიკოსმა ალან ტურინგმა გამოთქვა წინადადება, რომ მანქანებს შეუძლიათ პრობლემების გადაჭრა და გადაწყვეტილებების დამოუკიდებლად მიღება, ხელმისაწვდომი ინფორმაციის შეყვანის საფუძველზე. პრობლემა ის იყო, რომ კომპიუტერებს ჯერ არ ჰქონდათ ამ მონაცემების დამახსოვრების შესაძლებლობა, რაც გადამწყვეტი ნაბიჯია ხელოვნური ინტელექტის განვითარებისთვის. ყველაფერი, რაც მათ მაშინ შეეძლოთ, იყო მარტივი ბრძანებების შესრულება.
Ხელოვნური ინტელექტის განვითარებაში კიდევ ერთი მნიშვნელოვანი სახელია ჯონ მაკკარტი, რომელმაც პირველად გამოიგონა ტერმინი "ხელოვნური ინტელექტი". მაკკარტიმ თქვა, რომ ხელოვნური ინტელექტი არის: „ინტელექტუალური მანქანების შექმნის მეცნიერება და ინჟინერია“. ეს განმარტება გამოვლინდა 1956 წელს დარტმუთის კოლეჯში გამართულ კონფერენციაზე. მას შემდეგ ხელოვნური ინტელექტის განვითარება სასტიკი ტემპით დაიწყო.
Დღეს ხელოვნური ინტელექტი თავისი სხვადასხვა ფორმით ყველგან არის წარმოდგენილი. ის გადაიზარდა მასობრივ მიღებამდე, ძირითადად, მონაცემთა საერთო მოცულობის გაზრდის გამო, რომელიც ყოველდღიურად ხდება მთელ მსოფლიოში. იგი გამოიყენება მოწინავე ალგორითმებში და ამან გამოიწვია შენახვისა და გამოთვლითი სიმძლავრის გაუმჯობესება. ხელოვნური ინტელექტი გამოიყენება მრავალი მიზნისთვის, მაგალითად, თარგმანის, ტრანსკრიფციის, მეტყველების, სახის და ობიექტების ამოცნობა, სამედიცინო სურათების ანალიზი, ბუნებრივი ენების დამუშავება, სხვადასხვა სოციალური ქსელის ფილტრები და ა.შ. გახსოვთ ის საჭადრაკო მატჩი დიდოსტატ გარი კასპაროვსა და Deep Blue chess AI-ს შორის?
Მანქანური სწავლება ხელოვნური ინტელექტის კიდევ ერთი ძალიან მნიშვნელოვანი პროგრამაა. მოკლედ, ეს ეხება ნებისმიერ სისტემას, რომელსაც აქვს უნარი ისწავლოს და გაუმჯობესდეს საკუთარი გამოცდილების მონაცემთა ბაზიდან. ეს მუშაობს ნიმუშების ამოცნობით. იმისათვის, რომ სისტემამ ამის გაკეთება შეძლოს, მას უნდა შეეძლოს ტრენინგი. სისტემის ალგორითმი იღებს დიდი რაოდენობით მონაცემთა შეყვანას და ერთ მომენტში მას შეუძლია ამ მონაცემებიდან შაბლონების იდენტიფიცირება. ამ პროცესის საბოლოო მიზანია ამ კომპიუტერულ სისტემებს საშუალება მისცეს ისწავლონ დამოუკიდებლად, ყოველგვარი ადამიანის ჩარევისა და დახმარების გარეშე.
Კიდევ ერთი რამ, რაც ძალიან მნიშვნელოვანია აღვნიშნოთ მანქანურ სწავლასთან ერთად, არის ღრმა სწავლა. ღრმა სწავლის პროცესში ერთ-ერთი ყველაზე მნიშვნელოვანი ინსტრუმენტია ეგრეთ წოდებული ხელოვნური ნერვული ქსელები. ისინი მოწინავე ალგორითმებია, რომლებიც ადამიანის ტვინის სტრუქტურისა და ფუნქციის მსგავსია. თუმცა, ისინი სტატიკური და სიმბოლურია, განსხვავებით ბიოლოგიური ტვინისგან, რომელიც პლასტიკურია და უფრო ანალოგზეა დაფუძნებული. მოკლედ, ეს ღრმა სწავლა არის მანქანათმცოდნეობის ძალიან სპეციალიზებული მეთოდი, ძირითადად ხელოვნურ ნერვულ ქსელებზე დაფუძნებული. ღრმა სწავლის მიზანია ადამიანის სწავლის პროცესების მჭიდროდ გამეორება. ღრმა სწავლის ტექნოლოგია ძალიან სასარგებლოა და ის მნიშვნელოვან როლს ასრულებს ხმის კონტროლით სხვადასხვა მოწყობილობებში - ტაბლეტებში, ტელევიზორებში, სმარტფონებში, მაცივრებში და ა.შ. ხელოვნური ნერვული ქსელები ასევე გამოიყენება როგორც ერთგვარი ფილტრაციის სისტემა, რომელიც მიზნად ისახავს ნივთების წინასწარმეტყველებას რომელსაც მომხმარებელი მომავალში იყიდის. ღრმა სწავლის ტექნოლოგია ასევე ძალიან ფართოდ გამოიყენება სამედიცინო სფეროში. ეს ძალიან მნიშვნელოვანია კიბოს მკვლევარებისთვის, რადგან ის ხელს უწყობს კიბოს უჯრედების ავტომატურად გამოვლენას.
Ახლა ჩვენ დავუბრუნდებით მეტყველების ამოცნობას. ეს ტექნოლოგია, როგორც უკვე აღვნიშნეთ, მიზნად ისახავს სალაპარაკო ენის სხვადასხვა სიტყვებისა და ფრაზების ამოცნობას. ამის შემდეგ ის გარდაქმნის მათ ფორმატში, რომლის წაკითხვაც აპარატს შეუძლია. ძირითადი პროგრამები მხოლოდ საკვანძო ფრაზების მცირე რაოდენობის იდენტიფიცირებას ახდენს, მაგრამ მეტყველების ამოცნობის უფრო მოწინავე პროგრამას შეუძლია ყველა სახის ბუნებრივი მეტყველების გაშიფვრა. მეტყველების ამოცნობის ტექნოლოგია უმეტეს შემთხვევაში მოსახერხებელია, მაგრამ ზოგჯერ ის აწყდება პრობლემებს, როდესაც ჩაწერის ხარისხი არ არის საკმარისად კარგი ან როდესაც არის ფონური ხმები, რაც ართულებს სპიკერის სწორად გაგებას. შეიძლება ასევე შეექმნას გარკვეული პრობლემები, როდესაც მოსაუბრეს აქვს მართლაც ძლიერი აქცენტი ან დიალექტი. მეტყველების ამოცნობა მუდმივად ვითარდება, მაგრამ ის ჯერ კიდევ არ არის სრულყოფილი. ყველაფერი სიტყვებს არ ეხება, მანქანებს ჯერ კიდევ არ შეუძლიათ ბევრი რამ, რაც ადამიანებს შეუძლიათ, მაგალითად, მათ არ შეუძლიათ სხეულის ენის ან სხვისი ხმის ტონის გაშიფვრა. თუმცა, რაც უფრო მეტი მონაცემი გაშიფრულია ამ მოწინავე ალგორითმებით, ამ გამოწვევებიდან ზოგიერთი სირთულე მცირდება. ვინ იცის, რას მოუტანს მომავალი? ძნელი სათქმელია, სად დასრულდება მეტყველების ამოცნობა. მაგალითად, Google-ს უკვე აქვს დიდი წარმატება Google Translate ძრავებში მეტყველების ამოცნობის პროგრამული უზრუნველყოფის დანერგვაში და მანქანა მუდმივად სწავლობს და ვითარდება. შესაძლოა ერთ მშვენიერ დღეს ისინი მთლიანად ჩაანაცვლონ ადამიანთა თარჯიმნებს. ან შეიძლება არა, ყოველდღიური მეტყველების სიტუაციები ძალიან რთულია ნებისმიერი ტიპის აპარატისთვის, რომელსაც არ შეუძლია ადამიანის სულის სიღრმეების წაკითხვა.
Როდის გამოვიყენოთ მეტყველების ამოცნობა?
Დღესდღეობით თითქმის ყველას აქვს სმარტფონი ან პლანშეტი. მეტყველების ამოცნობა არის საერთო ფუნქცია ამ მოწყობილობებში. ისინი გამოიყენება ადამიანის მეტყველების მოქმედებად გადაქცევისთვის. თუ გსურთ ბებიას დაურეკოთ, საკმარისია უბრძანოთ ბებიას და თქვენი სმარტფონი უკვე რეკავს ნომერს თქვენი კონტაქტების სიების აკრეფის გარეშე. ეს არის მეტყველების ამოცნობა. ამის კიდევ ერთი კარგი მაგალითია Alexa ან Siri. მათ ასევე აქვთ ეს ფუნქცია ჩართული სისტემაში. Google გაძლევთ ასევე შესაძლებლობას, მოძებნოთ რაიმე ხმით, არაფრის აკრეფის გარეშე.
Შესაძლოა ახლა გაინტერესებთ როგორ მუშაობს ეს ყველაფერი. ისე, რომ ის იმუშაოს, მიკროფონების მსგავსი სენსორები უნდა იყოს ჩაშენებული პროგრამულ უზრუნველყოფაში, რათა წარმოთქმული სიტყვების ხმოვანი ტალღები ამოიცნონ, გაანალიზდეს და გადაკეთდეს ციფრულ ფორმატში. ციფრული ინფორმაცია შემდეგ უნდა შევადაროთ სხვა ინფორმაციას, რომელიც ინახება რაიმე სახის სიტყვებისა და გამონათქვამების საცავში. როდესაც არის დამთხვევა, პროგრამას შეუძლია ამოიცნოს ბრძანება და იმოქმედოს შესაბამისად.
Კიდევ ერთი რამ, რაც ამ ეტაპზე უნდა აღინიშნოს არის ე.წ. WER (სიტყვის შეცდომის მაჩვენებელი). ეს არის ფორმულა, რომელშიც შეცდომის რიცხვს ყოფთ სიტყვების ჯამზე. ასე რომ, მარტივად რომ ვთქვათ, სიზუსტესთან დიდი კავშირი აქვს. მიზანი, რა თქმა უნდა, არის დაბალი WER, რადგან ეს ნიშნავს, რომ სალაპარაკო სიტყვის ტრანსკრიფცია უფრო ზუსტია.
Მეტყველების ამოცნობა ახლა ისეთივე მოთხოვნადია, როგორც არასდროს. თუ თქვენ ასევე გჭირდებათ სალაპარაკო სიტყვის, ვთქვათ, ჩაწერილი აუდიო ფაილიდან ტექსტად გადაქცევა, შეგიძლიათ გადახვიდეთ Gglot-ზე. ჩვენ ვართ ტრანსკრიფციის სერვისის პროვაიდერი, რომელიც გთავაზობთ ზუსტ ტრანსკრიფციებს სამართლიან ფასად. ასე რომ, ნუ დააყოვნებთ დაკავშირებას ჩვენი მომხმარებლისთვის მოსახერხებელი ვებსაიტის საშუალებით.