Çfarë është saktësisht njohja e të folurit?

Njohja e të folurit

Çfarë duhet të dini për njohjen e të folurit

Kur flasim për njohjen e të folurit, zakonisht nënkuptojmë një softuer që ka aftësinë të njohë fjalën e folur dhe ta shkruajë atë në një program, kështu që në fund të keni gjithçka që është folur në një format të shkruar. Gjithashtu shpesh quhet "fjalë në tekst". Në fillim ai softuer kishte mundësi shumë të kufizuara, kështu që ju mund të konvertonit vetëm një numër të kufizuar frazash. Me kalimin e kohës, teknologjia pas softuerit të njohjes së të folurit është zhvilluar shumë dhe tani është shumë më e sofistikuar, kështu që mund të njohë gjuhë të ndryshme dhe madje edhe thekse të ndryshme. Por sigurisht, ka ende punë që duhet bërë në këtë fushë.

Është gjithashtu e rëndësishme të vërehet se njohja e të folurit nuk është e njëjtë me njohjen e zërit, edhe pse ndonjëherë njerëzit përdorin të dy termat për të njëjtën gjë. Njohja e zërit përdoret për identifikimin e personit që po flet dhe jo për të shënuar atë që thuhej.

Një histori e shkurtër e njohjes së të folurit dhe teknologjisë përkatëse

Në këtë artikull, ne do të shpjegojmë shkurtimisht historinë dhe teknologjinë pas rritjes së njohjes së të folurit.

Që në agimin e epokës dixhitale, njerëzit kishin një dëshirë që disi të ishin në gjendje të komunikonin me makinat. Pasi u shpik lloji i parë i kompjuterit dixhital, shumë shkencëtarë dhe inxhinierë janë përpjekur në mënyra të ndryshme të zbatojnë disi njohjen e të folurit në këtë proces. Një vit vendimtar i këtij procesi ishte viti 1962, kur IBM zbuloi Shoebox, një makinë bazë për njohjen e të folurit që ishte në gjendje të bënte llogaritje të thjeshta matematikore. Nëse përdoruesi i këtij protokompjuteri foli në një mikrofon, kjo makinë ishte në gjendje të njihte deri në gjashtë fjalë kontrolli si "plus" ose "minus". Me kalimin e kohës, teknologjia pas kësaj u zhvillua dhe sot është një veçori shumë e zakonshme të ndërveprosh me kompjuterët me zë. Ka shumë motorë të famshëm të njohjes së të folurit si Siri ose Alexa. Është e rëndësishme të theksohet se këto pajisje të drejtuara nga zëri varen nga inteligjenca artificiale (AI) dhe mësimi i makinerive.

Kur përmendet inteligjenca artificiale (AI), mund të tingëllojë si diçka nga një film fantastiko-shkencor, por e vërteta është se në kohën e sotme, AI luan një rol të madh në botën tonë. Në fakt, AI është tashmë shumë e pranishme në jetën tonë të përditshme, pasi shumë programe dhe aplikacione tashmë e përdorin atë. Por ishte fantashkencë në fillim të shekullit të 20-të, kur u shfaq termi. Në fund të viteve 1950, konceptet e AI u bënë më të spikatura dhe ishin në qendër të interesit të shumë shkencëtarëve dhe filozofëve. Në atë kohë, një matematikan shumë ambicioz britanik i quajtur Alan Turing doli me një propozim që makinat mund të zgjidhin problemet dhe të marrin vendime vetë, bazuar në informacionin e disponueshëm. Problemi ishte se kompjuterët nuk kishin ende mundësinë për të memorizuar ato të dhëna, që është një hap vendimtar për zhvillimin e inteligjencës artificiale. Gjithçka që ata mund të bënin atëherë ishte të ekzekutonin komanda të thjeshta.

Një tjetër emër i rëndësishëm në zhvillimin e AI është John McCarthy, i cili i pari shpiku vetë termin "inteligjencë artificiale". McCarthy deklaroi se AI është: "shkenca dhe inxhinieria e krijimit të makinave inteligjente". Ky përkufizim doli në dritë në një konferencë të rëndësishme në Kolegjin Dartmouth në 1956. Që atëherë e tutje AI filloi të zhvillohej me një ritëm të furishëm.

Sot, inteligjenca artificiale në format e saj të ndryshme është e pranishme kudo. Ajo është rritur në adoptim masiv, kryesisht për shkak të rritjes së vëllimit të përgjithshëm të të dhënave që po shkëmbehen në mbarë botën çdo ditë. Përdoret në algoritme të avancuara dhe shkaktoi përmirësime në ruajtjen dhe fuqinë kompjuterike. AI përdoret për shumë qëllime, për shembull përkthim, transkriptim, njohje të të folurit, fytyrës dhe objekteve, analiza të imazheve mjekësore, përpunimi i gjuhëve natyrore, filtra të ndryshëm të rrjeteve sociale etj. E mbani mend ndeshjen e shahut midis mjeshtrit Gari Kasparov dhe Deep Blue chess AI?

Pa titull 7 1

Mësimi i makinerive është një tjetër aplikim shumë i rëndësishëm i inteligjencës artificiale. Shkurtimisht, ai i referohet çdo sistemi që ka aftësinë për të mësuar dhe përmirësuar nga baza e të dhënave të përvojës së tyre. Kjo funksionon përmes njohjes së modeleve. Që sistemi ta bëjë këtë duhet të jetë në gjendje të trajnohet. Algoritmi i sistemit merr një hyrje të sasive të mëdha të të dhënave dhe në një moment ai bëhet i aftë të identifikojë modele nga ato të dhëna. Qëllimi përfundimtar i këtij procesi është t'u mundësojë këtyre sistemeve kompjuterike të mësojnë në mënyrë të pavarur, pa pasur nevojë për ndonjë ndërhyrje apo ndihmë njerëzore.

Një tjetër gjë që është shumë e rëndësishme të përmendet krahas mësimit të makinerive është mësimi i thellë. Një nga mjetet më të rëndësishme në procesin e të mësuarit të thellë janë të ashtuquajturat rrjete nervore artificiale. Janë algoritme të avancuara, të ngjashme me strukturën dhe funksionin e trurit të njeriut. Megjithatë, ato janë statike dhe simbolike, ndryshe nga truri biologjik i cili është plastik dhe më shumë i bazuar në analog. Me pak fjalë, ky mësim i thellë është një mënyrë shumë e specializuar e të mësuarit të makinerive, e bazuar kryesisht në rrjetet nervore artificiale. Qëllimi i të mësuarit të thellë është të përsërisë nga afër proceset e të mësuarit njerëzor. Teknologjia e të mësuarit të thellë është shumë e dobishme dhe luan një rol të rëndësishëm në pajisje të ndryshme që kontrollohen nga zëri - tableta, televizorë, telefona inteligjentë, frigoriferë etj. Rrjetet neurale artificiale përdoren gjithashtu si një lloj sistemi filtrimi që synon të parashikojë artikujt që përdoruesi do të blinte në të ardhmen. Teknologjia e të mësuarit të thellë përdoret gjithashtu shumë gjerësisht në fushën mjekësore. Është shumë e rëndësishme për studiuesit e kancerit, sepse ndihmon në zbulimin automatik të qelizave kancerogjene.

Tani do të kthehemi te njohja e të folurit. Kjo teknologji, siç e përmendëm tashmë, synon të identifikojë fjalë dhe fraza të ndryshme të gjuhës së folur. Më pas i konverton ato në një format që makina mund të lexojë. Programet bazë identifikojnë vetëm një numër të vogël frazash kyçe, por disa programe më të avancuara të njohjes së të folurit janë në gjendje të deshifrojnë të gjitha llojet e të folurit natyral. Teknologjia e njohjes së të folurit është e përshtatshme në shumicën e rasteve, por ndonjëherë ndeshet me probleme kur cilësia e regjistrimit nuk është mjaft e mirë ose kur ka zhurma në sfond që e bëjnë të vështirë kuptimin e duhur të altoparlantit. Gjithashtu mund të hasë ende disa probleme kur folësi ka një theks vërtet të fortë ose një dialekt. Njohja e të folurit po zhvillohet vazhdimisht, por ende nuk është mjaft e përsosur. Jo gjithçka ka të bëjë me fjalët, makinat ende nuk janë të afta për shumë gjëra që njerëzit mund të bëjnë, për shembull ata nuk janë në gjendje të deshifrojnë gjuhën e trupit apo tonin e zërit të dikujt. Megjithatë, ndërsa më shumë të dhëna deshifrohen nga këto algoritme të avancuara, disa nga këto sfida duket se ulen në vështirësi. Kush e di se çfarë do të sjellë e ardhmja? Është e vështirë të parashikohet se ku do të përfundojë njohja e të folurit. Për shembull, Google tashmë është duke pasur shumë sukses në zbatimin e softuerit të njohjes së të folurit në motorët e Google Translate, dhe makina po mëson dhe po zhvillohet vazhdimisht. Ndoshta një ditë ata do të zëvendësojnë plotësisht përkthyesit njerëzorë. Ose ndoshta jo, situatat e përditshme të të folurit janë shumë komplekse për çdo lloj makinerie që nuk është në gjendje të lexojë thellësinë e shpirtit njerëzor.

Kur të përdoret njohja e të folurit?

Në ditët e sotme, pothuajse të gjithë kanë një smartphone ose një tablet. Njohja e të folurit është një veçori e zakonshme në ato pajisje. Ato përdoren për të kthyer fjalimin e një personi në veprim. Nëse dëshironi të telefononi gjyshen tuaj, mjafton të urdhëroni "thirrni gjyshen" dhe telefoni juaj inteligjent tashmë është duke formuar numrin pa pasur nevojë të shkruani nëpër listat tuaja të kontakteve. Ky është njohja e të folurit. Një shembull tjetër i mirë i tij, është Alexa ose Siri. Ata gjithashtu e kanë këtë veçori të integruar në sistemin e tyre. Google ju jep gjithashtu mundësinë për të kërkuar çdo gjë me zë, pa shtypur asgjë.

Pa titull 8 1

Ndoshta tani jeni kurioz se si funksionon e gjithë kjo. Epo, që ai të funksionojë, sensorë si mikrofonët duhet të ndërtohen në softuer në mënyrë që valët e zërit të fjalëve të folura të njihen, analizohen dhe shndërrohen në një format dixhital. Informacioni dixhital më pas duhet të krahasohet me informacione të tjera që ruhen në një lloj depoje fjalësh dhe shprehjesh. Kur ka një përputhje, softueri mund të njohë komandën dhe të veprojë në përputhje me rrethanat.

Një gjë tjetër që duhet përmendur në këtë pikë është e ashtuquajtura WER (shkalla e gabimit të fjalëve). Kjo është një formulë në të cilën ju ndani numrin e gabimit me totalin e fjalëve. Pra, për ta thënë me fjalë të thjeshta, ka të bëjë shumë me saktësinë. Qëllimi është sigurisht që të kemi një WER të ulët, sepse kjo do të thotë që transkriptimi i fjalës së folur është më i saktë.

Njohja e të folurit tani është po aq e kërkuar si kurrë më parë. Nëse ju duhet gjithashtu të konvertoni fjalën e folur nga le të themi një skedar audio i regjistruar në tekst, mund të ktheheni te Gglot. Ne jemi një ofrues i shërbimit të transkriptimit i cili ofron transkriptime të sakta për një çmim të drejtë. Pra, mos hezitoni të kontaktoni përmes faqes sonë të internetit miqësore për përdoruesit.