Kas īsti ir runas atpazīšana?

Runas atpazīšana

Kas jums jāzina par runas atpazīšanu

Runājot par runas atpazīšanu, parasti mēs domājam programmatūru, kas spēj atpazīt izrunāto vārdu un pierakstīt to programmā, tādējādi galu galā viss izrunātais ir rakstiskā formātā. To bieži dēvē arī par "runas pārveidošanu tekstā". Sākumā šai programmatūrai bija ļoti ierobežotas iespējas, lai jūs varētu pārvērst tikai ierobežotu skaitu frāžu. Laika gaitā runas atpazīšanas programmatūras tehnoloģija ir daudz attīstījusies, un tagad tā ir daudz sarežģītāka, lai tā varētu atpazīt dažādas valodas un pat dažādus akcentus. Bet, protams, šajā jomā vēl ir jāstrādā.

Ir arī svarīgi ievērot, ka runas atpazīšana nav tas pats, kas balss atpazīšana, lai gan dažreiz cilvēki lieto abus terminus vienam un tam pašam. Balss atpazīšana tiek izmantota, lai identificētu personu, kas runā, nevis lai atzīmētu to, kas tika teikts.

Īsa runas atpazīšanas un saistīto tehnoloģiju vēsture

Šajā rakstā mēs īsi izskaidrosim runas atpazīšanas attīstības vēsturi un tehnoloģiju.

Kopš digitālā laikmeta rītausmas cilvēkiem bija vēlme kaut kā sazināties ar mašīnām. Pēc pirmā veida digitālā datora izgudrošanas daudzi zinātnieki un inženieri dažādos veidos ir mēģinājuši šajā procesā kaut kādā veidā ieviest runas atpazīšanu. Izšķirošs šim procesam bija 1962. gads, kad IBM atklāja Shoebox, pamata runas atpazīšanas iekārtu, kas spēja veikt vienkāršus matemātiskos aprēķinus. Ja šī protodatora lietotājs runāja mikrofonā, šī iekārta varēja atpazīt līdz sešiem vadības vārdiem, piemēram, “plus” vai “mīnus”. Laika gaitā šī tehnoloģija attīstījās, un mūsdienās ir ļoti izplatīta iespēja mijiedarboties ar datoriem, izmantojot balsi. Ir daudz slavenu runas atpazīšanas dzinēju, piemēram, Siri vai Alexa. Ir svarīgi atzīmēt, ka šīs ar balsi vadītās ierīces ir atkarīgas no mākslīgā intelekta (AI) un mašīnmācīšanās.

Ja tiek pieminēts mākslīgais intelekts (AI), tas varētu izklausīties kā no zinātniskās fantastikas filmas, taču patiesība ir tāda, ka mūsdienās AI spēlē lielu lomu mūsu pasaulē. Faktiski AI jau ir ļoti klātesošs mūsu ikdienas dzīvē, jo daudzas programmas un lietotnes to jau izmanto. Bet tā bija zinātniskā fantastika 20. gadsimta sākumā, kad radās šis termins. 1950. gada beigās mākslīgā intelekta jēdzieni kļuva pamanāmāki un bija daudzu zinātnieku un filozofu uzmanības centrā. Tajā laikā ļoti ambiciozs britu matemātiķis Alans Tjūrings nāca klajā ar ierosinājumu, ka mašīnas pašas var atrisināt problēmas un pieņemt lēmumus, pamatojoties uz pieejamo informāciju. Problēma bija tā, ka datoriem vēl nebija iespējas šos datus iegaumēt, kas ir būtisks solis mākslīgā intelekta attīstībā. Viss, ko viņi toreiz varēja darīt, bija izpildīt vienkāršas komandas.

Vēl viens svarīgs vārds mākslīgā intelekta attīstībā ir Džons Makartijs, kurš pirmais ieviesa terminu “mākslīgais intelekts”. Makartijs paziņoja, ka mākslīgais intelekts ir: "inteliģentu mašīnu izgatavošanas zinātne un inženierija". Šī definīcija nāca gaismā 1956. gadā Dārtmutas koledžā notikušajā nozīmīgajā konferencē. Kopš tā laika mākslīgais intelekts sāka attīstīties trakulīgā tempā.

Mūsdienās mākslīgais intelekts dažādos veidos ir sastopams visur. Tas ir izaudzis līdz masveida pieņemšanai, galvenokārt tāpēc, ka ir palielinājies kopējais datu apjoms, ar ko katru dienu tiek apmaiņa visā pasaulē. Tas tiek izmantots uzlabotos algoritmos, un tas uzlaboja uzglabāšanas un skaitļošanas jaudu. AI tiek izmantots daudziem mērķiem, piemēram, tulkošanai, transkripcijai, runai, sejas un objektu atpazīšanai, medicīnisko attēlu analīzei, dabisko valodu apstrādei, dažādiem sociālo tīklu filtriem un tā tālāk. Atcerieties to šaha maču starp lielmeistaru Gari Kasparovu un Deep Blue šaha AI?

Bez nosaukuma 7 1

Mašīnmācība ir vēl viens ļoti svarīgs mākslīgā intelekta pielietojums. Īsāk sakot, tas attiecas uz visām sistēmām, kurām ir iespēja mācīties un uzlabot savas pieredzes datubāzi. Tas darbojas, atpazīstot modeļus. Lai sistēma to darītu, tā ir jāspēj apmācīt. Sistēmas algoritms saņem lielu datu apjomu, un vienā brīdī tas spēj identificēt modeļus no šiem datiem. Šī procesa galamērķis ir dot šīm datorsistēmām iespēju mācīties neatkarīgi, bez jebkādas cilvēka iejaukšanās vai palīdzības.

Vēl viena lieta, ko ļoti svarīgi pieminēt līdzās mašīnmācībai, ir dziļā mācīšanās. Viens no svarīgākajiem instrumentiem dziļās mācīšanās procesā ir tā sauktie mākslīgie neironu tīkli. Tie ir uzlaboti algoritmi, kas līdzīgi cilvēka smadzeņu struktūrai un funkcijai. Tomēr tie ir statiski un simboliski, atšķirībā no bioloģiskajām smadzenēm, kas ir plastiskas un vairāk balstītas uz analogiem. Īsāk sakot, šī dziļā mācīšanās ir ļoti specializēts mašīnmācīšanās veids, kura pamatā galvenokārt ir mākslīgie neironu tīkli. Dziļās mācīšanās mērķis ir cieši atkārtot cilvēka mācīšanās procesus. Dziļās mācīšanās tehnoloģija ir ļoti noderīga, un tai ir svarīga loma dažādās ierīcēs, kuras tiek vadītas ar balsi – planšetdatoros, televizoros, viedtālruņos, ledusskapjos utt. Mākslīgie neironu tīkli tiek izmantoti arī kā sava veida filtrēšanas sistēma, kuras mērķis ir paredzēt objektus. ko lietotājs iegādāsies nākotnē. Dziļās mācīšanās tehnoloģija tiek ļoti plaši izmantota arī medicīnas jomā. Tas ir ļoti svarīgi vēža pētniekiem, jo tas palīdz automātiski atklāt vēža šūnas.

Tagad mēs atgriezīsimies pie runas atpazīšanas. Šīs tehnoloģijas, kā jau minējām, mērķis ir identificēt dažādus runātās valodas vārdus un frāzes. Pēc tam tas pārvērš tos formātā, ko iekārta spēj nolasīt. Pamatprogrammas identificē tikai nelielu skaitu galveno frāžu, bet dažas uzlabotas runas atpazīšanas programmatūras spēj atšifrēt visu veidu dabisko runu. Runas atpazīšanas tehnoloģija vairumā gadījumu ir ērta, taču dažreiz rodas problēmas, ja ieraksta kvalitāte nav pietiekami laba vai ir fona trokšņi, kas apgrūtina pareizu runātāja izpratni. Var rasties arī dažas problēmas, ja runātājam ir patiešām spēcīgs akcents vai dialekts. Runas atpazīšana pastāvīgi attīstās, taču tā joprojām nav gluži perfekta. Ne viss ir saistīts ar vārdiem, mašīnas joprojām nav spējīgas uz daudzām lietām, ko var izdarīt cilvēki, piemēram, tās nespēj atšifrēt ķermeņa valodu vai kāda balss toni. Tomēr, tā kā šie uzlabotie algoritmi atšifrē vairāk datu, šķiet, ka dažas no šīm problēmām kļūst grūtākas. Kas zina, ko nesīs nākotne? Ir grūti paredzēt, kur runas atpazīšana nonāks. Piemēram, Google jau gūst lielus panākumus runas atpazīšanas programmatūras ieviešanā Google tulkotāja dzinējos, un iekārta nepārtraukti mācās un attīstās. Varbūt kādu dienu viņi pilnībā aizstās cilvēku tulkotājus. Vai varbūt nē, ikdienas runas situācijas ir pārāk sarežģītas jebkurai mašīnai, kas nespēj nolasīt cilvēka dvēseles dziļumus.

Kad izmantot runas atpazīšanu?

Mūsdienās gandrīz ikvienam ir viedtālrunis vai planšetdators. Runas atpazīšana šajās ierīcēs ir izplatīta funkcija. Tos izmanto, lai cilvēka runu pārvērstu darbībā. Ja vēlaties piezvanīt vecmāmiņai, pietiek ar komandu “zvanīt vecmāmiņai”, un viedtālrunis jau sastāda numuru, jums nav jāraksta kontaktu saraksti. Šī ir runas atpazīšana. Vēl viens labs piemērs tam ir Alexa vai Siri. Viņiem ir arī šī funkcija savā sistēmā. Google piedāvā arī iespēju meklēt jebko ar balsi, neko neievadot.

Bez nosaukuma 81

Varbūt jūs tagad interesē, kā tas viss darbojas. Lai tas darbotos, programmatūrā ir jāiebūvē sensori, piemēram, mikrofoni, lai izrunāto vārdu skaņas viļņi tiktu atpazīti, analizēti un pārveidoti digitālā formātā. Pēc tam digitālā informācija ir jāsalīdzina ar citu informāciju, kas tiek glabāta kaut kādā vārdu un izteicienu krātuvē. Ja ir atbilstība, programmatūra var atpazīt komandu un atbilstoši rīkoties.

Vēl viena lieta, kas šajā brīdī ir jāpiemin, ir tā sauktais WER (vārda kļūdu līmenis). Šī ir formula, kurā kļūdas numuru dala ar vārdu kopsummu. Tātad, vienkārši izsakoties, tam ir daudz sakara ar precizitāti. Mērķis, protams, ir zems WER, jo tas nozīmē, ka runātā vārda transkripcija ir precīzāka.

Runas atpazīšana tagad ir tikpat pieprasīta kā jebkad agrāk. Ja jums ir arī jāpārvērš izrunātais vārds no, teiksim, ierakstīta audio faila uz tekstu, varat vērsties pie Gglot. Mēs esam transkripcijas pakalpojumu sniedzējs, kas piedāvā precīzus transkripcijas par godīgu cenu. Tāpēc nevilcinieties sazināties ar mūsu lietotājam draudzīgo vietni.