Auscultadores com Cancelamento de Ruído Alimentados por IA Permitem a Passagem de Apenas uma Voz

Auscultadores com Cancelamento de Ruído Alimentados por IA Permitem a Passagem de Apenas uma Voz

Crédito: STEPHANIE ARNETT/MITTR | DOMÍNIO PÚBLICO, ENVATO
Crédito: STEPHANIE ARNETT/MITTR | DOMÍNIO PÚBLICO, ENVATO

No nosso agitado mundo moderno, os auscultadores com cancelamento de ruído oferecem uma pausa da cacofonia. No entanto, a sua redução indiscriminada do som pode, inadvertidamente, abafar vozes importantes. Entra em cena um novo protótipo de sistema de IA chamado “Target Speech Hearing”. Este sistema permite que os utilizadores seleccionem a voz de uma pessoa específica para que esta permaneça audível mesmo com o cancelamento de ruído. Embora ainda seja uma prova de conceito, esta tecnologia poderá em breve melhorar os populares auriculares com cancelamento de ruído e até mesmo os aparelhos auditivos, garantindo que ouvimos o que realmente importa.

Um novo sistema de IA para auscultadores visa resolver este problema. Chamado Target Speech Hearing, o sistema permite aos utilizadores escolher a voz de uma pessoa para ouvir claramente, cancelando todos os outros sons.

Esta tecnologia ainda está na fase inicial, mas os seus criadores estão a falar com marcas populares de auriculares com cancelamento de ruído e também querem disponibilizá-la para aparelhos auditivos.

“Ouvir pessoas específicas é uma parte fundamental da forma como comunicamos e interagimos com os outros”, afirma Shyam Gollakota, professor da Universidade de Washington que trabalhou no projeto. “Pode ser muito difícil concentrarmo-nos em determinadas pessoas em ambientes ruidosos, mesmo que não tenhamos problemas de audição.”

Treinar a IA para Reconhecer e Filtrar

Os mesmos investigadores já tinham treinado uma IA para reconhecer e filtrar sons específicos, como o choro de bebés, o chilrear de pássaros ou o toque de alarmes. No entanto, separar vozes humanas é mais difícil e requer uma IA mais complexa. Esta complexidade é um problema porque os modelos de IA têm de funcionar em tempo real em auscultadores com capacidade de computação e autonomia de bateria limitadas. Para lidar com estes limites, as redes neuronais tinham de ser pequenas e eficientes em termos energéticos. Por isso, a equipa utilizou uma técnica chamada destilação de conhecimentos. Isto envolveu pegar num grande modelo de IA treinado em milhões de vozes (o “professor”) e utilizá-lo para treinar um modelo muito mais pequeno (o “aluno”) para ter o mesmo desempenho.

O modelo mais pequeno foi então ensinado a detetar vozes específicas do ruído circundante utilizando microfones num par de auscultadores normais com cancelamento de ruído.

Como Funciona

Para utilizar o sistema Target Speech Hearing, o utilizador mantém premido um botão nos auscultadores durante alguns segundos enquanto está de frente para a pessoa que pretende focar. Durante este período, designado por “inscrição”, o sistema grava uma amostra de áudio de ambos os auscultadores para identificar a voz do orador, mesmo que existam outras vozes e ruídos por perto.

Estas características de voz são enviadas para uma rede neural num pequeno computador ligado aos auscultadores por um cabo USB. Esta rede está sempre a funcionar, separando a voz escolhida das outras e reproduzindo-a para o ouvinte. Quando o sistema se fixa num altifalante, continua a concentrar-se na voz dessa pessoa, mesmo que o utilizador se afaste. Quanto mais o sistema ouve um altifalante, melhor consegue isolar essa voz.

Atualmente, o sistema só consegue focar com êxito um altifalante se a sua voz for a mais alta. No entanto, a equipa está a trabalhar para que funcione mesmo quando a voz mais alta não é a do orador alvo.

Avanços na Separação do Discurso: Aplicações Práticas e Perspectivas Futuras

Escolher uma voz num local barulhento é muito difícil, diz Sefik Emre Eskimez, um investigador sénior da Microsoft que trabalha em fala e IA, mas que não trabalhou neste estudo em particular. “Sei que as empresas querem fazer isto”, diz ele. “Se conseguirem descobrir, pode ser útil em muitas áreas, especialmente durante as reuniões.”

Embora a investigação sobre a separação da fala seja normalmente mais teórica do que prática, este estudo tem claras utilizações práticas, diz Samuele Cornell, investigador do Instituto de Tecnologias da Linguagem da Universidade Carnegie Mellon, que também não trabalhou neste estudo. “Penso que é um passo na direção certa”, diz Cornell. “É uma mudança refrescante”.


Leia o Artigo Original: MIT Technology Review

Leia mais: Kilnam Chon Prevê que a IA Ultrapasse a Inteligência Humana Dentro de 30 Anos

Share this post