Mākslīgā intelekta un mašīnmācīšanās loma runas atpazīšanā

Mākslīgā intelekta un mašīnmācīšanās loma runas atpazīšanā

Ilgu laiku cilvēki gribēja runāt ar mašīnām. Kopš viņi sāka būvēt datorus, zinātnieki un inženieri ir mēģinājuši šajā procesā iekļaut runas atpazīšanu. 1962. gadā IBM ieviesa runas atpazīšanas iekārtu Shoebox, kas spēj veikt vienkāršus matemātiskos aprēķinus. Šī novatoriskā ierīce atpazina un reaģēja uz 16 izrunātiem vārdiem, ieskaitot desmit ciparus no “0” līdz “9”. Kad tika izrunāts cipars un komandas vārdi, piemēram, “plus”, “mīnus” un “kopā”, Shoebox uzdeva pievienošanas mašīnai aprēķināt un izdrukāt atbildes uz vienkāršiem aritmētiskiem uzdevumiem. Shoebox tika darbināts, runājot mikrofonā, kas pārveidoja balss skaņas elektriskos impulsos. Mērīšanas ķēde klasificēja šos impulsus pēc dažāda veida skaņām un aktivizēja pievienoto pievienošanas iekārtu, izmantojot releju sistēmu.

Laika gaitā šī tehnoloģija attīstījās, un mūsdienās daudzi no mums regulāri mijiedarbojas ar datoriem ar balsi. Mūsdienās populārākie balss palīgi ir Amazon Alexa, Apple Siri, Microsoft Google Assistant un Cortana. Šie palīgi var veikt uzdevumus vai pakalpojumus indivīdam, pamatojoties uz komandām vai jautājumiem. Viņi spēj interpretēt cilvēka runu un reaģēt, izmantojot sintezētas balsis. Lietotāji var uzdot saviem asistentiem jautājumus, vadīt mājas automatizācijas ierīces un multivides atskaņošanu ar balsi, kā arī pārvaldīt citus pamatuzdevumus, piemēram, e-pastu, uzdevumu sarakstus un kalendārus, izmantojot verbālās komandas. Jo vairāk mēs izmantojam šīs ar balsi darbināmas ierīces, jo vairāk mēs kļūstam. atkarīgi no mākslīgā intelekta (AI) un mašīnmācīšanās.

Mākslīgais intelekts (AI)

1

Sakot mākslīgo intelektu (AI), daudzi cilvēki varētu domāt, ka jūs runājat par zinātnisko fantastiku, lai gan AI ir ļoti iestrādāta mūsu ikdienas dzīvē. Patiesībā tā ir bijis gadu desmitiem. Bet patiesība ir tāda, ka tā patiešām bija zinātniskā fantastika, kas 20. gadsimta sākumā iepazīstināja sabiedrību ar mākslīgi inteliģentiem cilvēkiem līdzīgiem robotiem. 50. gados mākslīgā intelekta jēdzieni arvien vairāk nonāca zinātnieku un filozofu interešu lokā. Tajā laikā jaunais britu matemātiķis Alans Tjūrings norādīja, ka nav iemesla, kāpēc mašīnas (tāpat kā cilvēki) nevarētu atrisināt problēmas un pieņemt lēmumus, pamatojoties uz pieejamo informāciju. Bet tajā laikā datoriem nebija iespējas iegaumēt, kas ir izlūkošanas atslēga. Viss, ko viņi darīja, bija komandu izpilde. Tomēr tas bija Alans Tjūrings, kurš noteica mākslīgā intelekta pamatmērķi un vīziju.

Plaši atzīts par mākslīgā intelekta tēvu ir Džons Makartijs, kurš radīja terminu mākslīgais intelekts . Viņam AI bija: “inteliģentu mašīnu izgatavošanas zinātne un inženierija”. Šī definīcija tika prezentēta konferencē Dartmutas koledžā 1956. gadā, un tā norādīja uz AI pētījumu sākumu. Kopš tā laika AI uzplauka.

Mūsdienu pasaulē mākslīgais intelekts ir visuresošs. Tas ir kļuvis populārāks, pateicoties palielinātam datu apjomam, uzlabotiem algoritmiem un skaitļošanas jaudas un atmiņas uzlabojumiem. Pārsvarā AI lietojumprogramma ir saistīta ar intelektuāliem uzdevumiem. Mēs izmantojam AI tulkošanai, objektu, sejas un runas atpazīšanai, tēmu noteikšanai, medicīnisko attēlu analīzei, dabiskās valodas apstrādei, sociālo tīklu filtrēšanai, šaha spēlei utt.

Mašīnmācība

Mašīnmācība ir mākslīgā intelekta pielietojums, un tas attiecas uz sistēmām, kurām ir iespēja uzlabot savu pieredzi. Vissvarīgākais šeit ir tas, ka sistēmai ir jāzina, kā atpazīt modeļus. Lai to varētu izdarīt, sistēma ir jāapmāca: algoritms padod lielu datu apjomu, lai kādā brīdī tā varētu identificēt modeļus. Mērķis ir ļaut datoriem mācīties automātiski bez cilvēka iejaukšanās vai palīdzības.

Runājot par mašīnmācīšanos, ir svarīgi pieminēt dziļo mācīšanos. Sāksim ar to, ka viens no galvenajiem dziļās mācīšanās rīkiem ir mākslīgie neironu tīkli. Tie ir algoritmi, kurus iedvesmo smadzeņu struktūra un funkcija, lai gan tie mēdz būt statiski un simboliski, nevis plastiski un analogi kā bioloģiskās smadzenes. Tātad dziļā mācīšanās ir specializēta mašīnmācīšanās forma, kuras pamatā ir mākslīgais neironu tīkls, kura mērķis ir atkārtot veidu, kā cilvēki mācās, un tas kalpo kā lielisks rīks, lai atrastu modeļus, kuru skaits ir pārāk daudz, lai programmētājs varētu iemācīt mašīnu. Pēdējos pāris gados ir daudz runāts par bezvadītāja automašīnām un to, kā tās varētu mainīt mūsu dzīvi. Šeit galvenais ir padziļinātas mācīšanās tehnoloģija, jo tā samazina negadījumu skaitu, ļaujot automašīnai atšķirt gājēju no ugunsdzēsības hidranta vai atpazīt sarkano gaismu. Dziļās mācīšanās tehnoloģijai ir arī galvenā loma balss vadībā tādās ierīcēs kā planšetdatori, tālruņi, ledusskapji, televizori utt. E-komercijas uzņēmumi bieži izmanto mākslīgos neironu tīklus kā filtrēšanas sistēmu, kas mēģina paredzēt un parādīt vienumus, kurus lietotājs vēlētos iegūt. pirkt. Dziļās mācīšanās tehnoloģija tiek izmantota arī medicīnas jomā. Tas palīdz vēža pētniekiem automātiski noteikt vēža šūnas un tādējādi ir milzīgs progress vēža ārstēšanā.

Runas atpazīšana

Runas atpazīšanas tehnoloģija palīdz identificēt vārdus un frāzes runātajā valodā un pārvērst tos mašīnai lasāmā formātā. Lai gan dažas programmas var identificēt tikai ierobežotu skaitu frāžu, dažas sarežģītākas runas atpazīšanas programmas var atšifrēt dabisko runu.

Vai ir šķēršļi, kas jāpārvar?

Lai gan runas atpazīšanas tehnoloģija ir ērta, tā ne vienmēr darbojas gludi, un tai joprojām ir jāatrisina dažas problēmas, jo tā tiek nepārtraukti attīstīta. Problēmas, kas var rasties, cita starpā var būt šādas: ieraksta kvalitāte var būt neatbilstoša, fonā var būt trokšņi, kas apgrūtina runātāja izpratni, kā arī runātājam var būt ļoti spēcīgs akcents vai dialekts (vai jūs kādreiz dzirdējis Džordija dialektu?) utt.

Runas atpazīšana ir attīstījusies diezgan daudz, taču tā joprojām ir tālu no perfekta. Ne viss ir saistīts tikai ar vārdiem, mašīna joprojām nevar izdarīt daudzas lietas, ko var cilvēki: viņi nevar lasīt ķermeņa valodu vai atpazīt sarkastisko toni kāda balsī. Cilvēki bieži neizrunā katru vārdu pareizi un mēdz dažus vārdus saīsināt. Piemēram, runājot ātri un neformāli, tiem, kuriem angļu valoda ir dzimtā valoda, bieži vien izrunā “going to”, piemēram, “gonna”. Viss iepriekš minētais rada šķēršļus mašīnām, kuras tās cenšas pārvarēt, taču priekšā vēl tāls ceļš. Ir svarīgi uzsvērt, ka šiem konkrētajiem algoritmiem tiek ievadīts arvien vairāk datu; šķiet, ka izaicinājumi samazinās. Šķiet, ka automatizētās runas atpazīšanas nākotne ir gaiša.

Ar balsi darbināmas lietotāja saskarnes kļūst arvien pieejamākas un populārākas mājsaimniecībās. Tā pat varētu kļūt par nākamo tehnoloģiju platformu.

Gglot piedāvā automatizētu runas atpazīšanu automatizētu transkripcijas pakalpojumu veidā – mēs pārvēršam runas par tekstu. Mūsu pakalpojums ir vienkārši lietojams, tas jums neizmaksās dārgi un tiks paveikts ātri!