Hvað nákvæmlega er talgreining?

Talgreining

Það sem þú þarft að vita um talgreiningu

Þegar við erum að tala um talgreiningu er venjulega átt við hugbúnað sem hefur getu til að þekkja talað orð og skrifa það niður í forriti þannig að á endanum ertu með allt sem hefur verið talað á rituðu formi. Það er líka oft nefnt „tal-til-texta“. Í upphafi hafði þessi hugbúnaður mjög takmarkaða möguleika, þannig að aðeins var hægt að umbreyta takmörkuðum fjölda orðasambanda. Með tímanum hefur tæknin á bak við talgreiningarhugbúnað þróast mikið og hann er nú mun flóknari, þannig að hann getur þekkt mismunandi tungumál og jafnvel mismunandi kommur. En auðvitað er enn eftir að vinna á þessu sviði.

Það er líka mikilvægt að taka eftir því að talgreining er ekki það sama og raddþekking, jafnvel þó að stundum noti fólk hugtökin tvö fyrir það sama. Raddgreining er notuð til að bera kennsl á þann sem er að tala en ekki til að taka eftir því sem var sagt.

Stutt saga um talgreiningu og tengda tækni

Í þessari grein munum við útskýra í stuttu máli söguna og tæknina á bak við uppgang talgreiningar.

Allt frá dögun stafrænnar aldar hafði fólk löngun til að geta á einhvern hátt átt samskipti við vélar. Eftir að fyrsta tegund stafrænna tölvunnar var fundin upp hafa fjölmargir vísindamenn og verkfræðingar reynt á ýmsan hátt að innleiða talgreiningu á einhvern hátt í þetta ferli. Afgerandi ár í þessu ferli var 1962, þegar IBM afhjúpaði Shoebox, undirstöðu talgreiningarvél sem var fær um að gera einfalda stærðfræðiútreikninga. Ef notandi þessarar frumtölvu talaði í hljóðnema gat þessi vél þekkt allt að sex stjórnunarorð eins og „plús“ eða „mínus“. Með tímanum þróaðist tæknin á bakvið þetta og í dag er mjög algengt að hafa samskipti við tölvur með rödd. Það eru margar frægar talgreiningarvélar eins og Siri eða Alexa. Það er mikilvægt að hafa í huga að þessi radddrifna tæki eru háð gervigreind (AI) og vélanámi.

Þegar gervigreind (AI) er nefnd gæti það hljómað eins og eitthvað úr vísindaskáldskaparmynd, en sannleikurinn er sá að í dag og öld gegnir gervigreind stórt hlutverk í heimi okkar. Reyndar er gervigreind nú þegar mjög til staðar í daglegu lífi okkar, þar sem mörg forrit og öpp nota það nú þegar. En það var vísindaskáldskapur í upphafi 20. aldar þegar hugtakið kom fram. Seint á 1950 urðu hugtök gervigreindar meira áberandi og voru í brennidepli margra vísindamanna og heimspekinga. Á þeim tíma kom mjög metnaðarfullur breskur stærðfræðingur að nafni Alan Turing með tillögu um að vélar geti leyst vandamál og tekið ákvarðanir sjálfar, byggt á inntak af tiltækum upplýsingum. Vandamálið var að tölvur höfðu ekki enn möguleika á að leggja þessi gögn á minnið, sem er mikilvægt skref fyrir þróun gervigreindar. Allt sem þeir gátu gert þá var að framkvæma einfaldar skipanir.

Annað mikilvægt nafn í þróun gervigreindar er John McCarthy, sem fyrst bjó til hugtakið „gervigreind“. McCarthy sagði að gervigreind væri: „vísindin og verkfræðin við að búa til greindar vélar“. Þessi skilgreining kom í ljós á öndvegisráðstefnu í Dartmouth College árið 1956. Upp frá því fór gervigreind að þróast á æðislegum hraða.

Í dag er gervigreind í sinni margvíslegu mynd alls staðar til staðar. Það hefur vaxið í fjöldaupptöku, aðallega vegna aukningar á heildarmagni gagna sem skiptast á um allan heim á hverjum degi. Það er notað í háþróuðum reikniritum og það gaf tilefni til endurbóta á geymslu og tölvuorku. Gervigreind er notuð í mörgum tilgangi, til dæmis þýðing, umritun, tal, andlits- og hlutgreiningu, greiningu á læknisfræðilegum myndum, úrvinnslu náttúrulegra tungumála, ýmsar samfélagsnetssíur og svo framvegis. Manstu eftir skákinni á milli stórmeistarans Gari Kasparovs og Deep Blue Chess AI?

Ónefndur 7 1

Vélnám er önnur mjög mikilvæg beiting gervigreindar. Í stuttu máli vísar það til hvers kyns kerfa sem hafa getu til að læra og bæta úr gagnagrunni eigin reynslu. Þetta virkar með því að þekkja mynstur. Til að kerfið geti það þarf að vera hægt að þjálfa það. Reiknirit kerfisins fær inntak af miklu magni af gögnum og á einum tímapunkti verður það fær um að bera kennsl á mynstur úr þeim gögnum. Lokamarkmið þessa ferlis er að gera þessum tölvukerfum kleift að læra sjálfstætt, án þess að þörf sé á mannlegri íhlutun eða aðstoð.

Annað sem er mjög mikilvægt að nefna samhliða vélanámi er djúpt nám. Eitt af mikilvægustu verkfærunum í ferli djúpnáms eru svokölluð gervi tauganet. Þetta eru háþróuð reiknirit sem líkjast uppbyggingu og starfsemi mannsheilans. Hins vegar eru þeir kyrrstæðir og táknrænir, ólíkt líffræðilegum heila sem er plastur og meira hliðstæður. Í stuttu máli er þetta djúpa nám mjög sérhæfð aðferð við vélnám, fyrst og fremst byggð á gervi tauganetum. Markmið djúpnáms er að endurtaka mannlega námsferla náið. Djúpnámstækni er mjög gagnleg og hún gegnir mikilvægu hlutverki í ýmsum tækjum sem stjórnast af röddinni – spjaldtölvum, sjónvörpum, snjallsímum, ísskápum o.s.frv. Gervi taugakerfi eru einnig notuð sem eins konar síunarkerfi sem miðar að því að spá fyrir um hlutina sem notandinn myndi kaupa í framtíðinni. Djúpnámstækni er einnig mjög mikið notuð í læknisfræði. Það er mjög mikilvægt fyrir krabbameinsfræðinga, því það hjálpar til við að greina krabbameinsfrumur sjálfkrafa.

Nú munum við snúa aftur að talgreiningu. Þessi tækni, eins og við höfum áður nefnt, miðar að því að bera kennsl á ýmis orð og orðasambönd í töluðu máli. Síðan breytir það þeim í snið sem vélin getur lesið. Grunnforrit bera kennsl á aðeins örfáa lykilsetningar, en einhver fullkomnari talgreiningarhugbúnaður er fær um að ráða alls kyns náttúrulegt tal. Talgreiningartækni er þægileg í flestum tilfellum, en hún lendir stundum í vandræðum þegar gæði upptökunnar eru ekki nógu góð eða þegar bakgrunnshljóð eru sem gera það erfitt að skilja hátalarann rétt. Það gæti líka lent í einhverjum vandamálum þegar hátalarinn er með mjög sterkan hreim eða mállýsku. Talgreining er í stöðugri þróun, en hún er samt ekki alveg fullkomin. Það snýst ekki allt um orð, vélar eru samt ekki færar um margt sem menn geta gert, til dæmis geta þær hvorki greint líkamstjáningu né raddblær einhvers. Hins vegar, eftir því sem fleiri gögn eru dulgreind með þessum háþróuðu reikniritum, virðast sum þessara áskorana minnka í erfiðleikum. Hver veit hvað framtíðin ber í skauti sér? Það er erfitt að spá fyrir um hvar talgreiningin endar. Til dæmis hefur Google þegar náð miklum árangri við að innleiða talgreiningarhugbúnað í Google Translate vélum og vélin er stöðugt að læra og þróast. Kannski munu þeir einn daginn skipta mannlegum þýðendum algjörlega út. Eða kannski ekki, hversdagslegar málaðstæður eru of flóknar fyrir hvers kyns vél sem er ekki fær um að lesa dýpt mannssálarinnar.

Hvenær á að nota talgreiningu?

Nú á dögum eiga næstum allir snjallsíma eða spjaldtölvu. Talgreining er algengur eiginleiki í þessum tækjum. Þeir eru notaðir til að breyta tali manns í aðgerð. Ef þú vilt hringja í ömmu þína er nóg að þú skipar „hringdu í ömmu“ og snjallsíminn þinn er nú þegar að hringja í númerið án þess að þú þurfir að slá í gegnum tengiliðalistann þinn. Þetta er talgreining. Annað gott dæmi um það, er Alexa eða Siri. Þeir eru líka með þennan eiginleika tengdan í kerfinu sínu. Google gefur þér einnig möguleika á að leita að hverju sem er með rödd, án þess að slá neitt inn.

Án titils 8 1

Kannski ertu nú forvitinn um hvernig allt þetta virkar. Jæja, til að það virki verða skynjarar eins og hljóðnemar að vera innbyggðir í hugbúnaðinn þannig að hljóðbylgjur talaðra orða séu þekktar, greindar og breyttar í stafrænt snið. Síðan þarf að bera stafrænu upplýsingarnar saman við aðrar upplýsingar sem eru geymdar í einhvers konar orða- og orðageymslu. Þegar það er samsvörun getur hugbúnaðurinn þekkt skipunina og hegðað sér í samræmi við það.

Eitt enn sem þarf að nefna á þessum tímapunkti er svokallað WER (orðvilluhlutfall). Þetta er formúla þar sem þú deilir villunúmerinu með heildarfjölda orða. Svo, til að setja það á einfaldan hátt, hefur það mikið að gera með nákvæmni. Markmiðið er auðvitað að hafa lágan WER því það þýðir að umritun talaða orðsins er nákvæmari.

Talgreining er nú eftirsótt eins og alltaf. Ef þú þarft líka að breyta talaðu orði úr tökum hljóðskrá yfir í texta geturðu snúið þér að Gglot. Við erum umritunarþjónusta sem býður upp á nákvæmar uppskriftir fyrir sanngjarnt verð. Svo ekki hika við að hafa samband í gegnum notendavæna vefsíðu okkar.