人工智能和机器学习：彻底改变语音识别

人工智能和机器学习在语音识别中的作用

很长一段时间以来，人们希望能够与机器对话。自从他们开始制造计算机以来，科学家和工程师就一直试图将语音识别纳入该过程。 1962年，IBM推出了Shoebox，这是一种语音识别机器，可以进行简单的数学计算。这种创新的设备可以识别并响应16个口头单词，包括从“ 0”到“ 9”的十个数字。当说出诸如“加”，“减”和“总计”之类的数字和命令字时，Shoebox指示加法器计算并打印出简单算术问题的答案。鞋盒通过对着麦克风讲话来操作，该麦克风将语音转换成电脉冲。测量电路根据各种声音对这些脉冲进行分类，并通过中继系统激活连接的加法器。

随着时间的流逝，这项技术得到了发展，如今我们许多人通常通过语音与计算机进行交互。今天最受欢迎的语音助手是亚马逊的Alexa，苹果的Siri，谷歌助手和微软的Cortana。这些助手可以根据命令或问题为个人执行任务或服务。他们能够解释人类的语音并通过合成的声音做出反应。用户可以向助手提问，通过语音控制家庭自动化设备和媒体播放，并通过口头命令管理其他基本任务，例如电子邮件，待办事项列表和日历。依赖于人工智能（AI）和机器学习。

人工智能（AI）

当您说人工智能（AI）时，许多人可能会认为您在谈论科幻小说，尽管AI已深深扎根于我们的日常生活中。实际上，已经有几十年了。但事实是，它的确是科幻小说，在20^世纪之初熟悉的公众人工智能的类人机器人。在50年代，人工智能的概念越来越受到科学家和哲学家的关注。当时，年轻的英国数学家艾伦·图灵（Alan Turing）提出，机器没有理由（就像人类一样）无法解决问题并无法根据可用信息做出决策。但是在那个时候，计算机不可能记住哪个是智能的关键。他们所做的只是执行命令。但是，仍然是艾伦·图灵（Alan Turing）确立了人工智能的基本目标和愿景。

被广泛认为是AI之父的是约翰麦卡锡（John McCarthy），他创造了人工智能一词。对他来说，人工智能是：“制造智能机器的科学与工程”。这个定义是在1956年在达特茅斯学院的一次会议上提出的，它表明了AI研究的开始。从那时起，人工智能蓬勃发展。

在现代世界中，人工智能无处不在。由于数据量的增加，高级算法以及计算能力和存储能力的提高，它变得越来越流行。通常，AI应用程序与智力任务相关。我们将AI用于翻译，物体，面部和语音识别，主题检测，医学图像分析，自然语言处理，社交网络过滤，下棋等。

机器学习

机器学习是人工智能的应用，它是指能够根据自己的经验进行改进的系统。这里最重要的是，系统需要知道如何识别模式。为了能够做到这一点，需要对系统进行培训：该算法需要输入大量数据，因此在某些时候它可以识别模式。目的是允许计算机在没有人工干预或帮助的情况下自动学习。

在谈论机器学习时，重要的是提及深度学习。首先，我们说深度学习中使用的主要工具之一是人工神经网络。这些是受大脑结构和功能启发的算法，尽管它们往往是静态的和象征性的，而不是像生物大脑那样具有可塑性和类似性的算法。因此，深度学习是基于人工神经网络的机器学习的一种特殊形式，其目的是复制人类的学习方式，这是一种很好的工具，可以找到对程序员来说教机器的模式太多。在过去的几年中，关于无人驾驶汽车及其如何改变我们的生活的话题很多。深度学习技术是这里的关键，因为它可以使汽车区分行人与消防栓或识别红灯，从而减少事故的发生。深度学习技术在平板电脑，电话，冰箱，电视等设备的语音控制中也起着主要作用。电子商务公司经常使用人工神经网络作为过滤系统，以试图预测并显示用户想要的项目。购买。深度学习技术还用于医疗领域。它可以帮助癌症研究人员自动检测癌细胞，从而代表了癌症治疗的巨大进步。

语音识别

语音识别技术用于识别口语中的单词和短语，并将其转换为机器可读的格式。虽然某些程序只能识别数量有限的短语，但某些更复杂的语音识别程序可以解密自然语音。

有克服的障碍吗？

语音识别技术虽然很方便，但并不总是能顺利进行，并且随着不断发展，它还需要解决一些问题。可能出现的问题包括以下方面：录音质量可能不充分，背景中可能会有噪音，使说话者难以理解，说话者的口音或方言也可能很强烈（您是否已听说过Geordie方言吗？），等等。

语音识别已经发展了很多，但是还远远不够完善。不仅所有的事情都与单词有关，机器仍然无法完成人类可以做的许多事情：他们无法阅读肢体语言或无法识别某人声音中的讽刺语调。人们通常不会以正确的方式发音每个单词，而且他们倾向于缩短某些单词。例如，在快速且非正式地讲话时，以英语为母语的人经常说“去”，如“会”。以上所有因素都为他们试图克服的机器带来了障碍，但是在他们面前还有很长的路要走。重要的是要强调，随着越来越多的数据馈入这些特定算法；挑战似乎正在减少。自动语音识别的未来似乎是光明的。

语音驱动的用户界面在家庭中变得越来越可用和流行。它甚至可能成为技术的下一个平台。

Gglot以自动转录服务的形式提供自动语音识别-我们将语音转换为文本。我们的服务易于使用，不会花很多钱，而且很快就会完成！

人工智能和机器学习在语音识别中的作用

创造

相比

法律