人工智能和机器学习在语音识别中的作用

人工智能和机器学习在语音识别中的作用

很长一段时间以来,人们希望能够与机器对话。自从他们开始制造计算机以来,科学家和工程师就一直试图将语音识别纳入该过程。 1962年,IBM推出了Shoebox,这是一种语音识别机器,可以进行简单的数学计算。这种创新的设备可以识别并响应16个口头单词,包括从“ 0”到“ 9”的十个数字。当说出诸如“加”,“减”和“总计”之类的数字和命令字时,Shoebox指示加法器计算并打印出简单算术问题的答案。鞋盒通过对着麦克风讲话来操作,该麦克风将语音转换成电脉冲。测量电路根据各种声音对这些脉冲进行分类,并通过中继系统激活连接的加法器。

随着时间的流逝,这项技术得到了发展,如今我们许多人通常通过语音与计算机进行交互。今天最受欢迎的语音助手是亚马逊的Alexa,苹果的Siri,谷歌助手和微软的Cortana。这些助手可以根据命令或问题为个人执行任务或服务。他们能够解释人类的语音并通过合成的声音做出反应。用户可以向助手提问,通过语音控制家庭自动化设备和媒体播放,并通过口头命令管理其他基本任务,例如电子邮件,待办事项列表和日历。依赖于人工智能(AI)和机器学习。

人工智能(AI)

1

当您说人工智能(AI)时,许多人可能会认为您在谈论科幻小说,尽管AI已深深扎根于我们的日常生活中。实际上,已经有几十年了。但事实是,它的确是科幻小说,在20世纪之初熟悉的公众人工智能的类人机器人。在50年代,人工智能的概念越来越受到科学家和哲学家的关注。当时,年轻的英国数学家艾伦·图灵(Alan Turing)提出,机器没有理由(就像人类一样)无法解决问题并无法根据可用信息做出决策。但是在那个时候,计算机不可能记住哪个是智能的关键。他们所做的只是执行命令。但是,仍然是艾伦·图灵(Alan Turing)确立了人工智能的基本目标和愿景。

被广泛认为是AI之父的是约翰麦卡锡(John McCarthy),他创造了人工智能一词。对他来说,人工智能是:“制造智能机器的科学与工程”。这个定义是在1956年在达特茅斯学院的一次会议上提出的,它表明了AI研究的开始。从那时起,人工智能蓬勃发展。

在现代世界中,人工智能无处不在。由于数据量的增加,高级算法以及计算能力和存储能力的提高,它变得越来越流行。通常,AI应用程序与智力任务相关。我们将AI用于翻译,物体,面部和语音识别,主题检测,医学图像分析,自然语言处理,社交网络过滤,下棋等。

机器学习

机器学习是人工智能的应用,它是指能够根据自己的经验进行改进的系统。这里最重要的是,系统需要知道如何识别模式。为了能够做到这一点,需要对系统进行培训:该算法需要输入大量数据,因此在某些时候它可以识别模式。目的是允许计算机在没有人工干预或帮助的情况下自动学习。

在谈论机器学习时,重要的是提及深度学习。首先,我们说深度学习中使用的主要工具之一是人工神经网络。这些是受大脑结构和功能启发的算法,尽管它们往往是静态的和象征性的,而不是像生物大脑那样具有可塑性和类似性的算法。因此,深度学习是基于人工神经网络的机器学习的一种特殊形式,其目的是复制人类的学习方式,这是一种很好的工具,可以找到对程序员来说教机器的模式太多。在过去的几年中,关于无人驾驶汽车及其如何改变我们的生活的话题很多。深度学习技术是这里的关键,因为它可以使汽车区分行人与消防栓或识别红灯,从而减少事故的发生。深度学习技术在平板电脑,电话,冰箱,电视等设备的语音控制中也起着主要作用。电子商务公司经常使用人工神经网络作为过滤系统,以试图预测并显示用户想要的项目。购买。深度学习技术还用于医疗领域。它可以帮助癌症研究人员自动检测癌细胞,从而代表了癌症治疗的巨大进步。

语音识别

语音识别技术用于识别口语中的单词和短语,并将其转换为机器可读的格式。虽然某些程序只能识别数量有限的短语,但某些更复杂的语音识别程序可以解密自然语音。

有克服的障碍吗?

语音识别技术虽然很方便,但并不总是能顺利进行,并且随着不断发展,它还需要解决一些问题。可能出现的问题包括以下方面:录音质量可能不充分,背景中可能会有噪音,使说话者难以理解,说话者的口音或方言也可能很强烈(您是否已听说过Geordie方言吗?),等等。

语音识别已经发展了很多,但是还远远不够完善。不仅所有的事情都与单词有关,机器仍然无法完成人类可以做的许多事情:他们无法阅读肢体语言或无法识别某人声音中的讽刺语调。人们通常不会以正确的方式发音每个单词,而且他们倾向于缩短某些单词。例如,在快速且非正式地讲话时,以英语为母语的人经常说“去”,如“会”。以上所有因素都为他们试图克服的机器带来了障碍,但是在他们面前还有很长的路要走。重要的是要强调,随着越来越多的数据馈入这些特定算法;挑战似乎正在减少。自动语音识别的未来似乎是光明的。

语音驱动的用户界面在家庭中变得越来越可用和流行。它甚至可能成为技术的下一个平台。

Gglot以自动转录服务的形式提供自动语音识别-我们将语音转换为文本。我们的服务易于使用,不会花很多钱,而且很快就会完成!