Mitä puheentunnistus oikein on?

Puheentunnistus

Mitä sinun tulee tietää puheentunnistuksesta

Puheentunnistuksesta puhuttaessa tarkoitamme yleensä ohjelmistoa, jolla on kyky tunnistaa puhuttu sana ja kirjoittaa se muistiin, joten loppujen lopuksi sinulla on kaikki puhuttu kirjallisessa muodossa. Sitä kutsutaan usein myös "puhe tekstiksi". Alussa ohjelmistolla oli hyvin rajalliset mahdollisuudet, joten voit muuntaa vain rajoitetun määrän lauseita. Ajan myötä puheentunnistusohjelmiston takana oleva tekniikka on kehittynyt paljon, ja se on nyt paljon kehittyneempää, jotta se pystyy tunnistamaan eri kieliä ja jopa erilaisia aksentteja. Mutta tietysti tällä alalla on vielä tehtävää.

On myös tärkeää huomata, että puheentunnistus ei ole sama asia kuin puheentunnistus, vaikka joskus ihmiset käyttävät kahta termiä samasta asiasta. Äänentunnistusta käytetään puhuvan henkilön tunnistamiseen eikä sanotun huomioimiseen.

Lyhyt puheentunnistuksen ja siihen liittyvän tekniikan historia

Tässä artikkelissa selitämme lyhyesti puheentunnistuksen nousun historian ja tekniikan.

Digitaalisen aikakauden kynnyksellä ihmisillä on ollut halu kommunikoida jotenkin koneiden kanssa. Ensimmäisen digitaalisen tietokoneen keksimisen jälkeen lukuisat tiedemiehet ja insinöörit ovat yrittäneet eri tavoin ottaa puheentunnistuksen käyttöön tähän prosessiin. Tämän prosessin ratkaiseva vuosi oli 1962, jolloin IBM paljasti Shoeboxin, peruspuheentunnistuskoneen, joka pystyi tekemään yksinkertaisia matemaattisia laskelmia. Jos tämän prototietokoneen käyttäjä puhui mikrofoniin, tämä kone pystyi tunnistamaan jopa kuusi ohjaussanaa, kuten "plus" tai "miinus". Ajan myötä tämän taustalla oleva tekniikka kehittyi, ja nykyään on hyvin yleistä olla vuorovaikutuksessa tietokoneiden kanssa äänellä. On olemassa monia kuuluisia puheentunnistusmoottoreita, kuten Siri tai Alexa. On tärkeää huomata, että nämä ääniohjatut laitteet ovat riippuvaisia tekoälystä (AI) ja koneoppimisesta.

Kun tekoäly (AI) mainitaan, se saattaa kuulostaa tieteiselokuvalta, mutta totuus on, että nykypäivänä tekoälyllä on suuri rooli maailmassamme. Itse asiassa tekoäly on jo hyvin läsnä jokapäiväisessä elämässämme, koska monet ohjelmat ja sovellukset käyttävät sitä jo. Mutta se oli tieteiskirjallisuutta 1900-luvun alussa, kun termi syntyi. 1950-luvun lopulla tekoälyn käsitteet tulivat näkyvämmiksi ja olivat monien tiedemiesten ja filosofien kiinnostuksen kohteena. Tuolloin erittäin kunnianhimoinen brittiläinen matemaatikko nimeltä Alan Turing esitti ehdotuksen, jonka mukaan koneet voivat ratkaista ongelmia ja tehdä päätöksiä itse, saatavilla olevan tiedon perusteella. Ongelmana oli, että tietokoneilla ei vielä ollut mahdollisuutta muistaa näitä tietoja, mikä on ratkaiseva askel tekoälyn kehityksessä. He pystyivät tuolloin vain suorittamaan yksinkertaisia komentoja.

Toinen tärkeä nimi tekoälyn kehityksessä on John McCarthy, joka loi ensimmäisenä termin "tekoäly". McCarthy totesi, että tekoäly on "tiede ja tekniikka älykkäiden koneiden valmistamisesta". Tämä määritelmä tuli esille Dartmouth Collegessa vuonna 1956 pidetyssä merkittävässä konferenssissa. Siitä lähtien tekoäly alkoi kehittyä kiihkeästi.

Nykyään tekoälyä eri muodoissaan on läsnä kaikkialla. Se on kasvanut massakäyttöön, mikä johtuu pääasiassa maailmanlaajuisesti päivittäin vaihdettavan datan kokonaismäärän kasvusta. Sitä käytetään edistyneissä algoritmeissa, ja se on parantanut tallennus- ja laskentatehoa. Tekoälyä käytetään moniin tarkoituksiin, esimerkiksi kääntämiseen, transkriptioon, puheen, kasvojen ja esineiden tunnistamiseen, lääketieteellisten kuvien analysointiin, luonnollisten kielten käsittelyyn, erilaisiin sosiaalisten verkostojen suodattimiin ja niin edelleen. Muistatko shakkiottelun suurmestari Gari Kasparovin ja Deep Blue -shakki-AI:n välillä?

Nimetön 7 1

Koneoppiminen on toinen erittäin tärkeä tekoälyn sovellus. Lyhyesti sanottuna se viittaa kaikkiin järjestelmiin, joilla on kyky oppia ja kehittyä oman kokemuksensa tietokannasta. Tämä toimii kuvioiden tunnistamisen kautta. Jotta järjestelmä voisi tehdä sen, se on voitava kouluttaa. Järjestelmän algoritmi vastaanottaa suuria tietomääriä, ja jossain vaiheessa se pystyy tunnistamaan kuvioita tästä tiedosta. Tämän prosessin lopullisena tavoitteena on mahdollistaa näiden tietokonejärjestelmien oppiminen itsenäisesti ilman ihmisen väliintuloa tai apua.

Toinen asia, joka on erittäin tärkeää mainita koneoppimisen rinnalla, on syvä oppiminen. Yksi tärkeimmistä työkaluista syväoppimisprosessissa ovat niin sanotut keinotekoiset neuroverkot. Ne ovat kehittyneitä algoritmeja, jotka ovat samanlaisia kuin ihmisaivojen rakenne ja toiminta. Ne ovat kuitenkin staattisia ja symbolisia, toisin kuin biologiset aivot, jotka ovat muovisia ja enemmän analogisia. Lyhyesti sanottuna tämä syväoppiminen on hyvin erikoistunut koneoppimistapa, joka perustuu ensisijaisesti keinotekoisiin hermoverkkoihin. Syväoppimisen tavoitteena on jäljitellä läheisesti ihmisen oppimisprosesseja. Syväoppimisteknologia on erittäin hyödyllinen, ja sillä on tärkeä rooli erilaisissa puheohjatuissa laitteissa – tableteissa, televisioissa, älypuhelimissa, jääkaapeissa jne. Keinotekoisia hermoverkkoja käytetään myös eräänlaisena suodatusjärjestelmänä, joka pyrkii ennustamaan kohteita. jonka käyttäjä ostaisi tulevaisuudessa. Syväoppimisteknologiaa käytetään myös erittäin laajasti lääketieteen alalla. Se on erittäin tärkeä syöpätutkijoille, koska se auttaa tunnistamaan syöpäsoluja automaattisesti.

Nyt palataan puheentunnistukseen. Tämä tekniikka, kuten jo mainitsimme, pyrkii tunnistamaan puhutun kielen erilaisia sanoja ja lauseita. Myöhemmin se muuntaa ne muotoon, jonka kone pystyy lukemaan. Perusohjelmat tunnistavat vain pienen joukon avainlauseita, mutta jotkut edistyneemmät puheentunnistusohjelmistot pystyvät tulkitsemaan kaikenlaista luonnollista puhetta. Puheentunnistustekniikka on kätevä useimmissa tapauksissa, mutta se kohtaa joskus ongelmia, kun tallennuksen laatu ei ole riittävän hyvä tai taustameluissa on vaikea ymmärtää kaiutinta oikein. Se voi myös kohdata ongelmia, jos kaiuttimessa on todella vahva aksentti tai murre. Puheentunnistus kehittyy jatkuvasti, mutta se ei ole vieläkään aivan täydellinen. Kaikessa ei ole kyse sanoista, koneet eivät silti pysty moniin ihmisiin, esimerkiksi ne eivät pysty tulkitsemaan kehonkieltä tai jonkun äänen sävyä. Kuitenkin, kun nämä edistyneet algoritmit tulkitsevat enemmän dataa, jotkin näistä haasteista näyttävät vaikeutuvan. Kuka tietää mitä tulevaisuus tuo tullessaan? On vaikea ennustaa, mihin puheentunnistus päätyy. Esimerkiksi Googlella on jo paljon menestystä puheentunnistusohjelmistojen käyttöönotossa Google Translate -moottoreissa, ja kone oppii ja kehittyy jatkuvasti. Ehkä jonain päivänä he korvaavat ihmiskääntäjät kokonaan. Tai ehkä ei, arkipäiväiset puhetilanteet ovat liian monimutkaisia mille tahansa koneelle, joka ei pysty lukemaan ihmissielun syvyyttä.

Milloin puheentunnistusta käytetään?

Nykyään lähes jokaisella on älypuhelin tai tabletti. Puheentunnistus on yleinen ominaisuus näissä laitteissa. Niitä käytetään muuntamaan henkilön puhe toiminnaksi. Jos haluat soittaa isoäidillesi, riittää, että annat käskyn "soita isoäidille" ja älypuhelimesi jo valitsee numeron ilman, että sinun tarvitsee kirjoittaa yhteystietojasi läpi. Tämä on puheentunnistus. Toinen hyvä esimerkki siitä on Alexa tai Siri. Heillä on myös tämä ominaisuus kiinteästi kytkettynä järjestelmään. Google antaa sinulle myös mahdollisuuden etsiä mitä tahansa puheella kirjoittamatta mitään.

Nimetön 81

Ehkä olet nyt utelias kuinka tämä kaikki toimii. No, jotta se toimisi, ohjelmistoon on rakennettava antureita, kuten mikrofoneja, jotta puhuttujen sanojen ääniaallot tunnistetaan, analysoidaan ja muunnetaan digitaaliseen muotoon. Digitaalista informaatiota on tällöin verrattava muuhun tietoon, joka on tallennettu jonkinlaiseen sana- ja ilmaisuvarastoon. Kun osuma löytyy, ohjelmisto tunnistaa komennon ja toimii sen mukaisesti.

Vielä yksi asia, joka on mainittava tässä vaiheessa, on niin kutsuttu WER (sanan virheprosentti). Tämä on kaava, jossa jaat virhenumeron sanojen kokonaismäärällä. Joten yksinkertaisesti sanottuna sillä on paljon tekemistä tarkkuuden kanssa. Tavoitteena on tietysti matala WER, koska tämä tarkoittaa, että puhutun sanan transkriptio on tarkempi.

Puheentunnistukselle on nyt kysyntää yhtä paljon kuin koskaan. Jos haluat myös muuntaa puhutun sanan esimerkiksi äänitetystä äänitiedostosta tekstiksi, voit kääntyä Gglot-sovellukseen. Olemme transkriptiopalvelun tarjoaja, joka tarjoaa tarkkoja transkriptioita kohtuulliseen hintaan. Älä siis epäröi ottaa yhteyttä käyttäjäystävällisen verkkosivustomme kautta.