O que é exatamente o reconhecimento de voz?
Reconhecimento de fala
O que precisa de saber sobre reconhecimento de voz
Quando falamos de reconhecimento de voz, geralmente referimo-nos a um software que tem a capacidade de reconhecer a palavra falada e gravá-la num programa, de modo a que no final tenha tudo o que foi falado num formato escrito. Também é frequentemente chamado de “conversão de voz em texto”. No início, este software tinha possibilidades muito limitadas, pelo que só se podia converter um número limitado de frases. Com o tempo, a tecnologia por detrás do software de reconhecimento de voz desenvolveu-se muito e é agora muito mais sofisticada, de modo a conseguir reconhecer diferentes línguas e até mesmo diferentes sotaques. Mas é claro que ainda há trabalho a ser feito nesta área.
É também importante notar que o reconhecimento de voz não é a mesma coisa que o reconhecimento de voz, embora por vezes as pessoas utilizem os dois termos para a mesma coisa. O reconhecimento de voz é utilizado para identificar a pessoa que está a falar e não para anotar o que está a ser dito.
Uma breve história do reconhecimento de voz e tecnologia relacionada
Neste artigo, explicaremos brevemente a história e a tecnologia por detrás do aparecimento do reconhecimento de voz.
Desde o início da era digital que as pessoas sentiam uma necessidade de, de alguma forma, conseguirem comunicar com as máquinas. Depois de ter sido inventado o primeiro tipo de computador digital, vários cientistas e engenheiros tentaram de várias formas implementar o reconhecimento de voz neste processo. Um ano crucial deste processo foi 1962, quando a IBM revelou o Shoebox, uma máquina básica de reconhecimento de voz capaz de fazer cálculos matemáticos simples. Se o utilizador deste protocomputador falasse para um microfone, esta máquina seria capaz de reconhecer até seis palavras de controlo como “mais” ou “menos”. Com o passar do tempo, a tecnologia por trás desenvolveu-se e hoje é muito comum interagir com os computadores por voz. Existem muitos mecanismos de reconhecimento de voz famosos, como o Siri ou o Alexa. É importante notar que estes dispositivos controlados por voz dependem da inteligência artificial (IA) e da aprendizagem automática.
Quando se fala de inteligência artificial (IA), pode parecer algo saído de um filme de ficção científica, mas a verdade é que, nos dias de hoje, a IA desempenha um grande papel no nosso mundo. De facto, a IA já está muito presente no nosso dia-a-dia, pois muitos programas e aplicações já a utilizam. Mas foi na ficção científica do início do século XX que o termo surgiu. No final da década de 1950, os conceitos de IA tornaram-se mais proeminentes e foram o foco de interesse de muitos cientistas e filósofos. Nessa altura, um matemático britânico muito ambicioso chamado Alan Turing propôs que as máquinas podem resolver problemas e tomar decisões por si próprias, com base na informação disponível. O problema era que os computadores ainda não tinham a possibilidade de memorizar estes dados, o que é um passo crucial para o desenvolvimento da inteligência artificial. Tudo o que podiam fazer naquela época era executar comandos simples.
Outro nome importante no desenvolvimento da IA é John McCarthy, que cunhou pela primeira vez o termo “inteligência artificial”. McCarthy afirmou que a IA é: “a ciência e a engenharia da criação de máquinas inteligentes”. Esta definição veio à tona numa conferência seminal no Dartmouth College em 1956. A partir daí, a IA começou a desenvolver-se a um ritmo frenético.
Hoje, a inteligência artificial nas suas diversas formas está presente em todo o lado. A sua adoção em massa cresceu, principalmente devido ao aumento do volume geral de dados trocados em todo o mundo todos os dias. É utilizado em algoritmos avançados e deu origem a melhorias no armazenamento e no poder de computação. A IA é utilizada para muitos fins, por exemplo, tradução, transcrição, fala, reconhecimento facial e de objetos, análise de imagens médicas, processamento de linguagens naturais, vários filtros de redes sociais e assim por diante. Lembram-se daquela partida de xadrez entre o grande mestre Gari Kasparov e a IA do Deep Blue?

A aprendizagem automática é outra aplicação muito importante da inteligência artificial. Em resumo, refere-se a quaisquer sistemas que tenham a capacidade de aprender e melhorar a partir da base de dados da sua própria experiência. Isto funciona através do reconhecimento de padrões. Para que o sistema o faça, precisa de ser capaz de ser treinado. O algoritmo do sistema recebe uma entrada de grandes quantidades de dados e, num determinado momento, torna-se capaz de identificar padrões nesses dados. O objectivo final deste processo é permitir que estes sistemas informáticos aprendam de forma independente, sem necessidade de qualquer intervenção ou assistência humana.
Outra coisa muito importante a ser mencionada juntamente com a aprendizagem automática é a aprendizagem profunda. Uma das ferramentas mais importantes no processo de aprendizagem profunda são as chamadas redes neuronais artificiais. São algoritmos avançados, semelhantes à estrutura e função do cérebro humano. No entanto, são estáticos e simbólicos, ao contrário do cérebro biológico, que é plástico e mais analógico. Em suma, esta aprendizagem profunda é uma forma muito especializada de aprendizagem automática, baseada principalmente em redes neuronais artificiais. O objetivo da aprendizagem profunda é replicar de perto os processos de aprendizagem humana. A tecnologia de aprendizagem profunda é muito útil e desempenha um papel importante em vários dispositivos controlados pela voz – tablets, TVs, smartphones, frigoríficos, etc. As redes neuronais artificiais são também utilizadas como uma espécie de sistema de filtragem que visa prever os artigos que o utilizador compraria no futuro. A tecnologia de aprendizagem profunda é também amplamente utilizada na área médica. É muito importante para os investigadores do cancro, porque ajuda a detetar automaticamente as células cancerígenas.
Agora voltaremos ao reconhecimento de voz. Esta tecnologia, como já referimos, tem como objetivo identificar várias palavras e frases da língua falada. Depois, converte-os num formato que a máquina consegue ler. Os programas básicos identificam apenas um pequeno número de frases-chave, mas alguns softwares de reconhecimento de voz mais avançados são capazes de decifrar todos os tipos de discurso natural. A tecnologia de reconhecimento de voz é conveniente na maioria dos casos, mas por vezes encontra problemas quando a qualidade da gravação não é suficientemente boa ou quando existem ruídos de fundo que dificultam a compreensão adequada do locutor. Também pode haver alguns problemas quando o falante tem um sotaque ou um dialeto demasiado forte. O reconhecimento da fala está em constante desenvolvimento, mas ainda não é perfeito. Nem tudo são palavras, as máquinas ainda não são capazes de muitas coisas que os humanos conseguem fazer, por exemplo, não são capazes de decifrar a linguagem corporal ou o tom de voz de alguém. No entanto, à medida que mais dados são decifrados por estes algoritmos avançados, alguns destes desafios parecem diminuir em dificuldade. Quem sabe o que o futuro trará? É difícil prever onde irá parar o reconhecimento de voz. Por exemplo, a Google já está a ter muito sucesso na implementação de software de reconhecimento de voz nos motores do Google Translate, e a máquina está constantemente a aprender e a desenvolver-se. Talvez um dia substituam completamente os tradutores humanos. Ou talvez não, as situações de discurso quotidianas são demasiado complexas para qualquer tipo de máquina que não seja capaz de ler a profundidade da alma humana.
Quando utilizar o reconhecimento de voz?
Hoje em dia, quase toda a gente tem um smartphone ou um tablet. O reconhecimento de voz é um recurso comum nestes dispositivos. São utilizados para converter a fala de uma pessoa em ação. Se quiser ligar à sua avó, basta comandar “ligar à avó” e o seu smartphone já estará a marcar o número sem que tenha de estar a digitar na sua lista de contactos. Isto é reconhecimento de voz. Outro bom exemplo disso é a Alexa ou Siri. Também têm esse recurso incorporado no sistema. O Google também oferece a opção de pesquisar qualquer coisa por voz, sem ter de escrever nada.

Talvez esteja curioso sobre como tudo isto funciona. Ora, para que isto funcione, sensores como microfones precisam de ser incorporados no software para que as ondas sonoras das palavras faladas sejam reconhecidas, analisadas e convertidas para um formato digital. As informações digitais precisam então de ser comparadas com outras informações armazenadas em algum tipo de repositório de palavras e expressões. Quando existe uma correspondência, o software pode reconhecer o comando e agir em conformidade.
Mais uma coisa que precisa de ser mencionada neste ponto é a chamada WER (word error rate). Esta é uma fórmula em que se divide o número de erros pelo total de palavras. Portanto, para simplificar, tem muito a ver com precisão. O objetivo é, naturalmente, ter um WER baixo, porque isso significa que a transcrição da palavra falada é mais precisa.
O reconhecimento de voz está mais procurado do que nunca. Se também precisar de converter a palavra falada de, digamos, um ficheiro de áudio gravado para texto, pode recorrer ao Gglot. Somos um fornecedor de serviços de transcrição que oferece transcrições precisas a um preço justo. Assim, não hesite em contactar-nos através do nosso site de fácil utilização.