음성 인식 이해: AI의 역할

음성 인식

음성 인식에 대해 알아야 할 사항

음성 인식에 대해 이야기 할 때 일반적으로 말한 단어를 인식하고 프로그램에 기록 할 수있는 소프트웨어를 의미하므로 결국 서면 형식으로 말한 모든 것을 사용할 수 있습니다. "음성-텍스트"라고도합니다. 처음에는 해당 소프트웨어의 가능성이 매우 제한적이어서 제한된 수의 구문 만 변환 할 수있었습니다. 시간이 지남에 따라 음성 인식 소프트웨어의 기술은 많이 발전했으며 이제는 훨씬 더 정교 해져서 다른 언어와 심지어 다른 억양까지 인식 할 수 있습니다. 하지만 물론이 분야에서해야 할 일이 아직 남아 있습니다.

때로는 사람들이 같은 일에 대해 두 용어를 사용하더라도 음성 인식이 음성 인식과 동일하지 않다는 점을 알아 두는 것도 중요합니다. 음성 인식은 말한 내용을 기록하지 않고 말하는 사람을 식별하는 데 사용됩니다.

음성 인식 및 관련 기술의 짧은 역사

이 기사에서는 음성 인식의 발전 뒤에 숨겨진 역사와 기술에 대해 간략하게 설명합니다.

디지털 시대가 시작된 이래로 사람들은 어떻게 든 기계와 통신 할 수있는 충동을 느꼈습니다. 최초의 디지털 컴퓨터가 발명 된 후 수많은 과학자와 엔지니어가 음성 인식을이 과정에 구현하기 위해 다양한 방법으로 시도했습니다. 이 과정에서 중요한 해는 IBM이 간단한 수학 계산을 할 수있는 기본적인 음성 인식 기계 인 Shoebox를 공개 한 1962 년이었습니다. 이 프로토 컴퓨터 사용자가 마이크에 대고 말하면이 기계는 "플러스"또는 "마이너스"와 같은 최대 6 개의 제어 단어를 인식 할 수있었습니다. 시간이 지남에 따라이 기술이 개발되었으며 오늘날에는 음성으로 컴퓨터와 상호 작용하는 것이 매우 일반적인 기능입니다. Siri 또는 Alexa와 같은 유명한 음성 인식 엔진이 많이 있습니다. 이러한 음성 기반 장치는 인공 지능 (AI) 및 기계 학습에 의존한다는 점에 유의해야합니다.

인공 지능 (AI)이 언급되면 공상 과학 영화처럼 들릴지 모르지만 사실은 오늘날 AI가 우리 세상에서 큰 역할을한다는 것입니다. 실제로 많은 프로그램과 앱에서 이미 AI를 사용하고 있기 때문에 AI는 이미 일상 생활에서 매우 존재합니다. 그러나이 용어가 등장한 20 세기 초 공상 과학 소설이었습니다. 1950 년 후반에 AI의 개념이 더욱 두드러졌고 많은 과학자와 철학자들의 관심을 끌었습니다. 그 당시에 Alan Turing이라는 매우 야심 찬 영국의 수학자는 사용 가능한 정보의 입력을 기반으로 기계가 문제를 해결하고 스스로 결정을 내릴 수 있다는 제안을 내놓았습니다. 문제는 컴퓨터가 아직 그 데이터를 기억할 수있는 가능성이 없다는 것이 었는데, 이는 인공 지능 개발의 중요한 단계입니다. 그 당시 그들이 할 수 있었던 것은 간단한 명령을 실행하는 것뿐이었습니다.

AI 개발에있어 또 다른 중요한 이름은 "인공 지능"이라는 용어를 처음 만든 John McCarthy입니다. McCarthy는 AI가“지능형 기계를 만드는 과학과 공학”이라고 말했습니다. 이 정의는 1956 년 Dartmouth College에서 열린 세미나에서 밝혀졌습니다. 그 이후로 AI는 광적인 속도로 발전하기 시작했습니다.

오늘날 다양한 형태의 인공 지능이 어디에나 존재합니다. 주로 전 세계적으로 매일 교환되는 전체 데이터 양의 증가로 인해 대량 채택으로 성장했습니다. 고급 알고리즘에 사용되며 스토리지 및 컴퓨팅 성능이 향상되었습니다. AI는 번역, 전사, 음성, 얼굴 및 객체 인식, 의료 이미지 분석, 자연어 처리, 다양한 소셜 네트워크 필터 등과 같은 다양한 용도로 사용됩니다. 그랜드 마스터 Gari Kasparov와 Deep Blue 체스 AI 간의 체스 경기를 기억하십니까?

기계 학습은 인공 지능의 또 다른 매우 중요한 응용 프로그램입니다. 간단히 말해, 자신의 경험 데이터베이스에서 학습하고 개선 할 수있는 능력이있는 모든 시스템을 의미합니다. 이것은 패턴 인식을 통해 작동합니다. 시스템이이를 수행하려면 교육을받을 수 있어야합니다. 시스템의 알고리즘은 많은 양의 데이터 입력을 수신하고 한 지점에서 해당 데이터에서 패턴을 식별 할 수있게됩니다. 이 프로세스의 최종 목표는 이러한 컴퓨터 시스템이 사람의 개입이나 도움없이 독립적으로 학습 할 수 있도록하는 것입니다.

기계 학습과 함께 언급해야 할 또 다른 중요한 사항은 딥 러닝입니다. 딥 러닝 과정에서 가장 중요한 도구 중 하나는 소위 인공 신경망입니다. 인간 두뇌의 구조와 기능과 유사한 고급 알고리즘입니다. 그러나 그들은 플라스틱이고 더 아날로그 기반 인 생물학적 뇌와 달리 정적이며 상징적입니다. 요컨대,이 딥 러닝은 주로 인공 신경망을 기반으로하는 매우 전문화 된 기계 학습 방식입니다. 딥 러닝의 목표는 인간의 학습 과정을 밀접하게 복제하는 것입니다. 딥 러닝 기술은 매우 유용하며 태블릿, TV, 스마트 폰, 냉장고 등 음성으로 제어되는 다양한 기기에서 중요한 역할을합니다. 인공 신경망은 항목 예측을 목표로하는 일종의 필터링 시스템으로도 사용됩니다. 사용자가 미래에 구매할 것입니다. 딥 러닝 기술은 의료 분야에서도 매우 널리 사용됩니다. 암세포를 자동으로 감지하는 데 도움이되기 때문에 암 연구자에게 매우 중요합니다.

이제 음성 인식으로 돌아갑니다. 이미 언급했듯이이 기술은 구어의 다양한 단어와 구를 식별하는 것을 목표로합니다. 그 후 기계가 읽을 수있는 형식으로 변환합니다. 기본 프로그램은 적은 수의 핵심 문구 만 식별하지만 일부 고급 음성 인식 소프트웨어는 모든 종류의 자연스러운 음성을 해독 할 수 있습니다. 음성 인식 기술은 대부분의 경우 편리하지만 녹음 품질이 좋지 않거나 배경 소음이있어 화자를 제대로 이해하기 어려운 경우가 종종 있습니다. 화자가 정말 강한 악센트 나 방언을 사용하는 경우에도 여전히 몇 가지 문제가 발생할 수 있습니다. 음성 인식은 지속적으로 발전하고 있지만 여전히 완벽하지는 않습니다. 모든 것이 단어에 관한 것은 아닙니다. 기계는 여전히 인간이 할 수있는 많은 일을 할 수 없습니다. 예를 들어 신체 언어 나 다른 사람의 목소리 톤을 해독 할 수 없습니다. 그러나 이러한 고급 알고리즘에 의해 더 많은 데이터가 해독됨에 따라 이러한 문제 중 일부는 난이도가 감소하는 것 같습니다. 미래가 무엇을 가져올 지 누가 압니까? 음성 인식이 어디에서 끝날지 예측하기는 어렵습니다. 예를 들어 Google은 이미 Google 번역 엔진에서 음성 인식 소프트웨어를 구현하는 데 많은 성공을 거두고 있으며 기계는 지속적으로 학습하고 개발하고 있습니다. 언젠가는 번역가를 완전히 대체 할 것입니다. 또는 그렇지 않을 수도 있지만, 일상적인 음성 상황은 인간 영혼의 깊이를 읽을 수없는 모든 종류의 기계에 비해 너무 복잡합니다.

음성 인식은 언제 사용합니까?

오늘날 거의 모든 사람들이 스마트 폰이나 태블릿을 가지고 있습니다. 음성 인식은 이러한 장치의 일반적인 기능입니다. 사람의 말을 행동으로 바꾸는 데 사용됩니다. 할머니에게 전화를 걸려면 "할머니에게 전화하기"라고 명령하면 충분합니다. 연락처 목록을 통해 입력 할 필요없이 스마트 폰에서 이미 전화를 걸고 있습니다. 이것은 음성 인식입니다. 또 다른 좋은 예는 Alexa 또는 Siri입니다. 또한이 기능이 시스템에 유선으로 연결되어 있습니다. Google은 입력하지 않고도 음성으로 무엇이든 검색 할 수있는 옵션도 제공합니다.

이 모든 것이 어떻게 작동하는지 궁금 할 것입니다. 음, 작동하려면 마이크와 같은 센서가 소프트웨어에 내장되어 음성 단어의 음파가 인식되고 분석되어 디지털 형식으로 변환되어야합니다. 그런 다음 디지털 정보는 일종의 단어 및 표현 저장소에 저장된 다른 정보와 비교되어야합니다. 일치하는 항목이 있으면 소프트웨어가 명령을 인식하고 그에 따라 작동 할 수 있습니다.

이 시점에서 언급해야 할 한 가지 더는 소위 WER (단어 오류율)입니다. 이것은 오류 수를 단어의 합계로 나누는 공식입니다. 따라서 간단히 말하면 정확성과 관련이 있습니다. 목표는 물론 낮은 WER를 갖는 것입니다. 이는 말한 단어의 전사가 더 정확하다는 것을 의미하기 때문입니다.

음성 인식은 이제 그 어느 때보다 수요가 높습니다. 녹음된 오디오 파일에서 음성 단어를 텍스트로 변환해야 하는 경우 Gglot을 사용할 수 있습니다. 우리는 공정한 가격으로 정확한 전사를 제공하는 전사 서비스 제공업체입니다. 따라서 사용자 친화적인 웹사이트를 통해 주저하지 말고 문의해 주세요.

음성 인식이란 정확히 무엇입니까?

만들다

비교

법적