人工智能和機器學習在語音識別中的作用

人工智能和機器學習在語音識別中的作用

很長一段時間以來,人們希望能夠與機器對話。自從他們開始製造計算機以來,科學家和工程師就一直試圖將語音識別納入該過程。 1962年,IBM推出了Shoebox,這是一種語音識別機器,可以進行簡單的數學計算。這種創新的設備可以識別並響應16個口頭單詞,包括從“ 0”到“ 9”的十個數字。當說出諸如“加”,“減”和“總計”之類的數字和命令字時,Shoebox指示加法器計算並打印出簡單算術問題的答案。鞋盒通過對著麥克風講話來操作,該麥克風將語音轉換成電脈衝。測量電路根據各種聲音對這些脈衝進行分類,並通過中繼系統激活連接的加法器。

隨著時間的流逝,這項技術得到了發展,如今我們許多人通常通過語音與計算機進行交互。今天最受歡迎的語音助手是亞馬遜的Alexa,蘋果的Siri,谷歌助手和微軟的Cortana。這些助手可以根據命令或問題為個人執行任務或服務。他們能夠解釋人類的語音並通過合成的聲音做出反應。用戶可以向助手提問,通過語音控製家庭自動化設備和媒體播放,還可以通過口頭命令來管理其他基本任務,例如電子郵件,待辦事項列表和日曆。依賴於人工智能(AI)和機器學習。

人工智能(AI)

1

當您說人工智能(AI)時,許多人可能會認為您在談論科幻小說,儘管AI已深深紮根於我們的日常生活中。實際上,已經有幾十年了。但事實是,它的確是科幻小說,在20世紀之初熟悉的公眾人工智能的類人機器人。在50年代,人工智能的概念越來越受到科學家和哲學家的關注。當時,年輕的英國數學家艾倫·圖靈(Alan Turing)提出,機器沒有理由(就像人類一樣)無法解決問題並無法根據可用信息做出決策。但是在那個時候,計算機不可能記住哪個是智能的關鍵。他們所做的只是執行命令。但是,仍然是艾倫·圖靈(Alan Turing)確立了人工智能的基本目標和願景。

被廣泛認為是AI之父的是約翰麥卡錫(John McCarthy),他創造了人工智能一詞。對他來說,人工智能是:“製造智能機器的科學與工程”。這個定義是在1956年在達特茅斯學院的一次會議上提出的,它表明了AI研究的開始。從那時起,人工智能蓬勃發展。

在現代世界中,人工智能無處不在。由於數據量的增加,高級算法以及計算能力和存儲能力的提高,它變得越來越流行。通常,AI應用程序與智力任務相關。我們將AI用於翻譯,物體,面部和語音識別,主題檢測,醫學圖像分析,自然語言處理,社交網絡過濾,下棋等。

機器學習

機器學習是人工智能的應用,它是指能夠根據自己的經驗進行改進的系統。這裡最重要的是,系統需要知道如何識別模式。為了能夠做到這一點,需要對系統進行培訓:該算法需要輸入大量數據,因此在某些時候它可以識別模式。目的是允許計算機在沒有人工干預或幫助的情況下自動學習。

在談論機器學習時,重要的是提及深度學習。首先,我們說深度學習中使用的主要工具之一是人工神經網絡。這些是受大腦結構和功能啟發的算法,儘管它們往往是靜態的和象徵性的,而不是像生物大腦那樣具有可塑性和類似性的算法。因此,深度學習是基於人工神經網絡的機器學習的一種特殊形式,其目的是複制人類的學習方式,這是一種很好的工具,可以找到對程序員來說教機器的模式太多。在過去的幾年中,關於無人駕駛汽車及其如何改變我們的生活的話題很多。深度學習技術是這裡的關鍵,因為它可以使汽車區分行人與消防栓或識別紅燈,從而減少事故的發生。深度學習技術在平板電腦,電話,冰箱,電視等設備的語音控制中也起著主要作用。電子商務公司經常使用人工神經網絡作為過濾系統,以試圖預測並顯示用戶想要的項目。購買。深度學習技術還用於醫療領域。它可以幫助癌症研究人員自動檢測癌細胞,從而代表了癌症治療的巨大進步。

語音識別

語音識別技術用於識別口語中的單詞和短語,並將其轉換為機器可讀的格式。雖然某些程序只能識別數量有限的短語,但某些更複雜的語音識別程序可以解密自然語音。

有克服的障礙嗎?

語音識別技術雖然很方便,但並不總是能順利進行,並且隨著不斷發展,它還需要解決一些問題。可能出現的問題包括以下方面:錄音質量可能不充分,背景中可能會有噪音,使說話者難以理解,說話者的口音或方言也可能真的很強烈(您是否已聽說過Geordie方言嗎?),等等。

語音識別已經發展了很多,但是還遠遠不夠完善。不僅所有的事情都與單詞有關,機器仍然無法完成人類可以做的許多事情:他們無法閱讀肢體語言或無法識別某人聲音中的諷刺語調。人們通常不會以正確的方式發音每個單詞,而且他們傾向於縮短某些單詞。例如,在快速且非正式地講話時,以英語為母語的人經常說“去”,如“會”。以上所有因素都為他們試圖克服的機器帶來了障礙,但是在他們面前還有很長的路要走。重要的是要強調,隨著越來越多的數據饋入這些特定算法;挑戰似乎正在減少。自動語音識別的未來似乎是光明的。

語音驅動的用戶界面在家庭中變得越來越可用和流行。它甚至可能成為技術的下一個平台。

Gglot以自動轉錄服務的形式提供自動語音識別-我們將語音轉換為文本。我們的服務易於使用,不會花很多錢,而且很快就會完成!