AI 및 머신러닝: 음성 인식의 혁명

음성 인식에서 인공 지능과 기계 학습의 역할

오랫동안 사람들은 기계와 대화 할 수 있기를 원했습니다. 컴퓨터를 만들기 시작한 이래 과학자와 엔지니어는 음성 인식을 프로세스에 통합하려고 노력했습니다. 1962 년 IBM은 간단한 수학 계산을 수행 할 수있는 음성 인식 기계 인 Shoebox를 출시했습니다. 이 혁신적인 장치는 "0"에서 "9"까지의 10 자리 숫자를 포함하여 16 개의 음성 단어를 인식하고 응답했습니다. "플러스", "마이너스"및 "전체"와 같은 숫자와 명령 단어를 말했을 때 Shoebox는 덧셈 기계에 간단한 산술 문제에 대한 답을 계산하고 인쇄하도록 지시했습니다. Shoebox는 마이크에 대고 말을함으로써 음성 사운드를 전기적 충격으로 변환했습니다. 측정 회로는 이러한 임펄스를 다양한 소리에 따라 분류하고 릴레이 시스템을 통해 부착 된 가산기를 작동시켰다.

시간이 지남에 따라이 기술이 개발되었고 오늘날 우리 중 많은 사람들이 일상적으로 음성으로 컴퓨터와 상호 작용합니다. 오늘날 가장 인기있는 음성 도우미는 Alexa by Amazon, Siri by Apple, Google Assistant 및 Cortana by Microsoft입니다. 이러한 보조자는 명령이나 질문에 따라 개인을위한 작업 또는 서비스를 수행 할 수 있습니다. 그들은 인간의 말을 해석하고 합성 된 음성을 통해 응답 할 수 있습니다. 사용자는 어시스턴트에게 질문하고, 음성을 통해 홈 자동화 장치 및 미디어 재생을 제어하고, 음성 명령으로 이메일, 할 일 목록 및 캘린더와 같은 기타 기본 작업을 관리 할 수 있습니다. 인공 지능 (AI)과 기계 학습에 의존합니다.

인공 지능 (AI)

인공 지능 (AI)을 말할 때 많은 사람들은 인공 지능이 우리의 일상 생활에 매우 내재되어 있음에도 불구하고 당신이 공상 과학에 대해 이야기하고 있다고 생각할 것입니다. 사실, 수십 년이되었습니다. 그러나 진실은 20 세기 초반에 대중에게 인공 지능형 인간과 유사한 로봇에 익숙해 진 것은 실제로 공상 과학 소설이었습니다. 50 년대에 인공 지능의 개념은 과학자와 철학자들의 관심을 끌기 위해 점점 더 많이 등장했습니다. 그 당시 젊은 영국 수학자 앨런 튜링은 기계가 (인간처럼) 문제를 해결하지 못하고 이용 가능한 정보를 바탕으로 결정을 내릴 수없는 이유가 없다고 제안했습니다. 하지만 그 당시 컴퓨터는 지능의 핵심을 기억할 가능성이 없었습니다. 그들이 한 것은 명령을 실행하는 것뿐이었습니다. 그러나 여전히 인공 지능의 근본적인 목표와 비전을 수립 한 사람은 앨런 튜링이었습니다.

AI의 아버지로 널리 알려져있는 John McCarthy는 인공 지능 em>이라는 용어를 만들었습니다. 그에게 AI는 "지능형 기계를 만드는 과학과 공학"이었습니다. 이 정의는 1956 년 Dartmouth College의 컨퍼런스에서 발표되었으며 AI 연구의 시작을 나타냅니다. 그때부터 AI가 번성했습니다.

현대 세계에서 인공 지능은 어디에나 있습니다. 증가 된 데이터 볼륨, 고급 알고리즘, 컴퓨팅 성능 및 스토리지의 개선으로 인해 더욱 인기를 얻고 있습니다. 대부분 AI 애플리케이션은 지적 작업과 연결되어 있습니다. 번역, 개체, 얼굴 및 음성 인식, 주제 감지, 의료 이미지 분석, 자연어 처리, 소셜 네트워크 필터링, 체스 게임 등에 AI를 사용합니다.

기계 학습

기계 학습은 인공 지능의 응용 프로그램이며 자신의 경험에서 개선 할 수있는 능력이있는 시스템을 말합니다. 여기서 가장 중요한 것은 시스템이 패턴을 인식하는 방법을 알아야한다는 것입니다. 이를 위해서는 시스템을 훈련시켜야합니다. 알고리즘은 많은 양의 데이터를 공급하므로 어느 시점에서 패턴을 식별 할 수 있습니다. 목표는 컴퓨터가 사람의 개입이나 도움없이 자동으로 학습 할 수 있도록하는 것입니다.

머신 러닝에 대해 이야기 할 때 딥 러닝을 언급하는 것이 중요합니다. 딥 러닝에 사용되는 주요 도구 중 하나가 인공 신경망이라고 말하면서 시작해 보겠습니다. 그것들은 뇌의 구조와 기능에서 영감을 얻은 알고리즘입니다. 비록 그것들이 생물학적 뇌처럼 플라스틱과 아날로그가 아닌 정적이고 상징적 인 경향이 있음에도 불구하고. 따라서 딥 러닝은 인공 신경망을 기반으로하는 특수한 형태의 기계 학습으로 인간이 학습하는 방식을 복제하는 것이 목표이며 프로그래머가 기계를 가르치기에는 너무 많은 패턴을 찾는 훌륭한 도구 역할을합니다. 지난 몇 년 동안 무인 자동차와 그것이 우리의 삶을 어떻게 바꿀 수 있는지에 대해 많은 이야기가있었습니다. 여기에서 딥 러닝 기술은 차량이 보행자와 소화전을 구별하거나 적색 등을 인식 할 수 있도록하여 사고를 줄이므로 핵심입니다. 딥 러닝 기술은 또한 태블릿, 전화, 냉장고, TV 등과 같은 장치의 음성 제어에서 주요 역할을합니다. 전자 상거래 회사는 종종 사용자가 원하는 항목을 예측하고 보여 주려는 필터링 시스템으로 인공 신경망을 사용합니다. 구입. 딥 러닝 기술은 의료 분야에서도 사용됩니다. 이는 암 연구자들이 암세포를 자동으로 감지하도록 돕고 암 치료의 엄청난 진전을 나타냅니다.

음성 인식

음성 인식 기술은 구어를 구성하는 단어와 구를 식별하고이를 기계에서 읽을 수있는 형식으로 변환하는 역할을합니다. 일부 프로그램은 제한된 수의 구문 만 식별 할 수 있지만 일부 더 정교한 음성 인식 프로그램은 자연스러운 음성을 해독 할 수 있습니다.

극복해야 할 장애물이 있습니까?

편리하지만 음성 인식 기술이 항상 원활하게 진행되는 것은 아니며 지속적으로 개발되기 때문에 해결해야 할 몇 가지 문제가 있습니다. 다음과 같은 문제가 발생할 수 있습니다. 녹음 품질이 부적절 할 수 있고 배경에 소음이있어 화자를 이해하기 어려울 수 있으며 화자가 억양이나 방언이 정말 강할 수 있습니다. Geordie 방언을 들어 본 적이 있습니까?) 등.

음성 인식은 상당히 발전했지만 여전히 완벽하지는 않습니다. 모든 것이 단어에 관한 것이 아닙니다. 기계는 여전히 인간이 할 수있는 많은 일을 할 수 없습니다. 신체 언어를 읽거나 누군가의 목소리에서 비꼬는 어조를 인식 할 수 없습니다. 사람들은 종종 모든 단어를 적절한 방식으로 발음하지 않으며 일부 단어를 단축하는 경향이 있습니다. 예를 들어, 빠르고 비공식적으로 말할 때 원어민은 종종 "gonna"와 같이 "going to"를 발음합니다. 위의 모든 것들은 그들이 극복하려는 기계들에게 장애물을 야기하지만, 그들 앞에는 여전히 먼 길이 있습니다. 점점 더 많은 데이터가 특정 알고리즘에 공급됨을 강조하는 것이 중요합니다. 도전이 감소하는 것 같습니다. 자동 음성 인식의 미래는 밝아 보입니다.

음성 기반 사용자 인터페이스는 점점 더 많이 사용 가능 해지고 가정에서 인기를 얻고 있습니다. 기술의 다음 플랫폼이 될 수도 있습니다.

Gglot은 자동 음성 인식 기능을 제공하는 자동 필사 서비스입니다. 음성을 텍스트로 변환해 드립니다. 저희 서비스는 사용하기 간편하고, 비용도 저렴하며, 빠르게 완료됩니다!

의 역할을 인공지능 및 기계학습에서 음성 인식

만들다

비교

법적