Rola sztucznej inteligencji i uczenia maszynowego w rozpoznawaniu mowy
Rola sztucznej inteligencji i uczenia maszynowego w rozpoznawaniu mowy
Od dawna ludzie chcieli rozmawiać z maszynami. Odkąd zaczęli budować komputery, naukowcy i inżynierowie próbowali włączyć rozpoznawanie mowy do tego procesu. W roku 1962 IBM wprowadził Shoebox, maszynę do rozpoznawania mowy, która potrafiła wykonywać proste obliczenia matematyczne. To innowacyjne urządzenie rozpoznało i zareagowało na 16 wypowiadanych słów, w tym dziesięć cyfr od „0” do „9”. Kiedy wypowiedziano liczbę i słowa poleceń, takie jak „plus”, „minus” i „suma”, Shoebox poinstruował maszynę dodającą, aby obliczyła i wydrukowała odpowiedzi na proste zadania arytmetyczne. Pudełko na buty było obsługiwane przez mówienie do mikrofonu, który zamieniał dźwięki głosu na impulsy elektryczne. Obwód pomiarowy klasyfikował te impulsy według różnych typów dźwięków i aktywował dołączoną maszynę sumującą poprzez system przekaźników.
Z czasem ta technologia rozwinęła się i obecnie wielu z nas rutynowo komunikuje się głosowo z komputerami. Najpopularniejszymi asystentami głosowymi są dziś Alexa by Amazon, Siri by Apple, Google Assistant i Cortana by Microsoft. Asystenci ci mogą wykonywać zadania lub usługi dla osoby na podstawie poleceń lub pytań. Potrafią interpretować ludzką mowę i odpowiadać za pomocą głosów syntetycznych. Użytkownicy mogą zadawać pytania swoim asystentom, sterować urządzeniami automatyki domowej i odtwarzaniem multimediów za pomocą głosu oraz zarządzać innymi podstawowymi zadaniami, takimi jak poczta e-mail, listy zadań i kalendarze za pomocą poleceń głosowych. Im częściej korzystamy z tych urządzeń sterowanych głosem, tym bardziej się stajemy zależne od sztucznej inteligencji (AI) i uczenia maszynowego.
Sztuczna inteligencja (AI)
Kiedy mówisz o sztucznej inteligencji (AI), wiele osób może pomyśleć, że mówisz o science fiction, mimo że sztuczna inteligencja jest mocno osadzona w naszym codziennym życiu. W rzeczywistości trwa to od dziesięcioleci. Ale prawda jest taka, że to właśnie science fiction na początku XX wieku zapoznała społeczeństwo ze sztucznie inteligentnymi robotami podobnymi do ludzi. W latach pięćdziesiątych koncepcje sztucznej inteligencji coraz częściej pojawiały się w centrum zainteresowania naukowców i filozofów. W tamtych czasach młody brytyjski matematyk Alan Turing zasugerował, że nie ma powodu, dla którego maszyny (tak jak ludzie) nie mogłyby rozwiązywać problemów i podejmować decyzji na podstawie dostępnych informacji. Ale w tamtych czasach komputery nie miały możliwości zapamiętywania, co jest kluczowe dla inteligencji. Wszystko, co robili, to wykonywać polecenia. Mimo wszystko to Alan Turing wyznaczył podstawowy cel i wizję sztucznej inteligencji.
Powszechnie uznanym ojcem AI jest John McCarthy, który ukuł termin sztuczna inteligencja . Dla niego AI to: „nauka i inżynieria tworzenia inteligentnych maszyn”. Definicja ta została zaprezentowana na konferencji w Dartmouth College w 1956 roku i wskazywała na początek badań nad sztuczną inteligencją. Od tego czasu AI kwitła.
We współczesnym świecie sztuczna inteligencja jest wszechobecna. Stało się bardziej popularne dzięki zwiększonej ilości danych, zaawansowanym algorytmom oraz ulepszeniom mocy obliczeniowej i pamięci masowej. Głównie aplikacja AI jest związana z zadaniami intelektualnymi. Używamy sztucznej inteligencji do tłumaczenia, rozpoznawania obiektów, twarzy i mowy, wykrywania tematów, analizy obrazu medycznego, przetwarzania języka naturalnego, filtrowania sieci społecznościowych, gry w szachy itp.
Nauczanie maszynowe
Uczenie maszynowe to zastosowanie sztucznej inteligencji i dotyczy systemów, które mają zdolność doskonalenia się na podstawie własnego doświadczenia. Najważniejsze jest to, że system musi wiedzieć, jak rozpoznawać wzorce. Aby móc to zrobić, system musi zostać przeszkolony: algorytm podaje duże ilości danych, więc w pewnym momencie jest w stanie zidentyfikować wzorce. Celem jest umożliwienie komputerom automatycznego uczenia się bez interwencji lub pomocy człowieka.
Mówiąc o uczeniu maszynowym, warto wspomnieć o uczeniu głębokim. Zacznijmy od stwierdzenia, że jednym z głównych narzędzi wykorzystywanych w głębokim uczeniu się są sztuczne sieci neuronowe. Są to algorytmy inspirowane strukturą i funkcją mózgu, mimo że wydają się być statyczne i symboliczne, a nie plastyczne i analogowe, jak mózg biologiczny. Tak więc uczenie głębokie jest wyspecjalizowaną formą uczenia maszynowego opartą na sztucznej sieci neuronowej, której celem jest odtworzenie sposobu, w jaki uczą się ludzie, a to służy jako doskonałe narzędzie do znajdowania wzorców, których jest zbyt wiele, aby programista mógł nauczyć maszynę. W ciągu ostatnich kilku lat dużo mówi się o samochodach bez kierowcy io tym, jak mogą one zmienić nasze życie. Technologia głębokiego uczenia jest tutaj kluczowa, ponieważ zmniejsza liczbę wypadków, umożliwiając samochodowi odróżnienie pieszego od hydrantu przeciwpożarowego lub rozpoznanie czerwonego światła. Technologia głębokiego uczenia odgrywa również główną rolę w sterowaniu głosem w urządzeniach takich jak tablety, telefony, lodówki, telewizory itp. Firmy zajmujące się handlem elektronicznym często używają sztucznych sieci neuronowych jako systemu filtrującego, który próbuje przewidzieć i pokazać elementy, które użytkownik chciałby Kup. Technologia głębokiego uczenia jest również wykorzystywana w medycynie. Pomaga badaczom raka w automatycznym wykrywaniu komórek rakowych, a tym samym stanowi ogromny postęp w leczeniu raka.
Rozpoznawanie mowy
Technologia rozpoznawania mowy służy do identyfikacji słów i fraz z języka mówionego i przekształcania ich w format czytelny dla maszyny. Podczas gdy niektóre programy mogą zidentyfikować tylko ograniczoną liczbę fraz, niektóre bardziej zaawansowane programy rozpoznawania mowy mogą rozszyfrować naturalną mowę.
Czy są jakieś przeszkody do pokonania?
Chociaż jest wygodna, technologia rozpoznawania mowy nie zawsze działa bezproblemowo i nadal ma kilka problemów do rozwiązania, ponieważ jest stale rozwijana. Problemy, które mogą się pojawić, mogą obejmować między innymi: jakość nagrania może być nieodpowiednia, w tle mogą być szumy utrudniające zrozumienie osoby mówiącej, a także osoba mówiąca może mieć naprawdę mocny akcent lub dialekt (czy słyszałeś kiedyś dialekt Geordie?) itp.
Rozpoznawanie mowy bardzo się rozwinęło, ale nadal jest dalekie od doskonałości. Nie wszystko sprowadza się tylko do słów, maszyna nadal nie potrafi zrobić wielu rzeczy, które potrafią ludzie: nie potrafią czytać mowy ciała ani rozpoznawać sarkastycznego tonu czyjegoś głosu. Ludzie często nie wymawiają we właściwy sposób każdego słowa i mają tendencję do skracania niektórych słów. Na przykład, gdy mówisz szybko i nieformalnie, rodzimi użytkownicy języka angielskiego często wymawiają „going to” jak „gonna”. Wszystko to powoduje przeszkody dla maszyn, które próbują pokonać, ale przed nimi jest jeszcze długa droga. Należy podkreślić, że coraz więcej danych jest podawanych do tych konkretnych algorytmów; wyzwania wydają się zmniejszać. Przyszłość automatycznego rozpoznawania mowy rysuje się w jasnych barwach.
Interfejsy użytkownika sterowane głosem stają się coraz bardziej dostępne i popularne w gospodarstwach domowych. Może nawet stać się kolejną platformą technologiczną.
Gglot oferuje automatyczne rozpoznawanie mowy w formie usług automatycznej transkrypcji – konwertujemy wypowiedzi na tekst. Nasza usługa jest prosta w obsłudze, nie będzie Cię dużo kosztować i zostanie wykonana szybko!