Primeira IA Pública do Japão com Interação de Fala em Tempo Real

Créditos da Imagem: Techxplore
Como desenvolver um sistema de IA para reproduzir fielmente a fala humana? Pesquisadores da Universidade de Nagoya alcançaram esse objetivo ao criar o J-Moshi — a primeira IA pública a imitar os estilos de conversação japoneses.
O J-Moshi Captura o Fluxo Natural da Conversação Japonesa por Meio do aizuchi
O J-Moshi replica o ritmo natural da conversação japonesa, que frequentemente inclui breves interjeições chamadas aizuchi. Respostas como “Sou desu ne” e “Naruhodo” demonstram escuta ativa e são mais comuns em japonês do que em inglês.
A IA convencional tem dificuldades com o aizuchi porque não consegue falar e ouvir simultaneamente, uma habilidade essencial para criar um diálogo japonês com som natural. Como resultado, o J-Moshi ganhou popularidade entre falantes de japonês que valorizam seu estilo de conversação realista.
Pesquisadores do Laboratório Higashinaka adaptaram o modelo Moshi em inglês de Kyutai para desenvolver o J-Moshi. O processo de adaptação levou cerca de quatro meses e envolveu o treinamento da IA com diversos conjuntos de dados de fala em japonês. Suas descobertas estão disponíveis no servidor de pré-impressão arXiv.
O principal dado de treinamento foi o J-CHAT, o maior conjunto de dados de diálogos públicos do Japão, com 67.000 horas de áudio. A equipe também incorporou conjuntos de dados menores e de alta qualidade — alguns desenvolvidos internamente e outros com 20 a 30 anos de existência. Eles expandiram os dados de treinamento convertendo conversas escritas em fala sintética com ferramentas personalizadas de conversão de texto em fala.
Em janeiro de 2024, o J-Moshi atraiu grande atenção após seus vídeos de demonstração viralizarem nas redes sociais. Além de sua inovação, o sistema auxilia no aprendizado de idiomas, ajudando falantes não nativos a praticar conversação natural em japonês.
A equipe de pesquisa também está investigando usos comerciais do J-Moshi em áreas como call centers, saúde e atendimento ao cliente. Adaptar o sistema para áreas especializadas é desafiador devido à limitação de dados de fala em japonês em comparação com o inglês.
Unindo Experiência da Indústria e Inovação Acadêmica
Liderando a equipe está o Professor Ryuichiro Higashinaka, que traz uma rara combinação de experiência na indústria e no meio acadêmico. Antes de ingressar na Universidade de Nagoya, há cinco anos, ele passou 19 anos na NTT desenvolvendo sistemas de diálogo como o Shabette Concier.
Em 2020, ele fundou um laboratório na Universidade de Nagoya com foco em comunicação humana, unindo teoria e prática com uma equipe de 20 membros que trabalhava em cronometragem de conversas em japonês e guias de IA em espaços públicos.
“Tecnologias como o J-Moshi podem aprimorar sistemas que trabalham em conjunto com operadores humanos”, disse o Professor Higashinaka. “No Aquário NIFREL de Osaka, nossos robôs-guia realizam tarefas rotineiras, mas transferem consultas complexas para funcionários humanos.” Este projeto faz parte da Iniciativa Moonshot do Gabinete do Japão para aprimorar os serviços por meio da colaboração entre IA e humanos.
O professor Higashinaka destacou os desafios específicos da pesquisa japonesa em IA: “O Japão enfrenta uma escassez de dados de fala, o que limita a capacidade de treinar sistemas de diálogo de IA. Questões de privacidade também precisam ser cuidadosamente consideradas.”
Essa falta de dados impulsionou abordagens inovadoras, como o uso de software para separar vozes sobrepostas em gravações de podcast em faixas individuais de locutores para fins de treinamento.
Desafios dos Sistemas de Diálogo em Ambientes Sociais e Visuais Complexos
Atualmente, os sistemas de diálogo enfrentam dificuldades com contextos sociais complexos, especialmente quando precisam levar em conta relacionamentos interpessoais e o ambiente físico. Barreiras visuais como máscaras ou chapéus também podem reduzir a eficácia, ocultando sinais faciais importantes. Testes no Aquário NIFREL de Osaka mostraram que a IA às vezes precisa de ajuda humana para responder a perguntas.
O J-Moshi é um avanço na conversação natural em japonês, mas ainda depende do suporte humano. A equipe está aprimorando isso criando ferramentas para resumir diálogos e detectar problemas para intervenção oportuna do operador.
Além do J-Moshi, a pesquisa do laboratório abrange técnicas mais amplas de interação entre humanos e robôs. Trabalhando em conjunto com colegas especializados em robôs humanoides realistas, eles estão criando sistemas que sincronizam fala, gestos e movimentos para permitir uma comunicação mais natural.
Avançando na IA na Robótica
Robôs como os da Unitree Robotics demonstram avanços em IA que combinam conversação com presença física. A equipe frequentemente demonstra seu trabalho em eventos universitários para o público.
Seu artigo de pesquisa sobre J-Moshi foi aceito para apresentação na Interspeech, a maior conferência internacional do mundo sobre tecnologia e pesquisa da fala. O Professor Higashinaka e sua equipe estão animados para compartilhar suas descobertas em Roterdã, Holanda, em agosto de 2025.
“Em um futuro próximo, veremos sistemas que colaboram facilmente com humanos por meio de fala e gestos naturais. Meu objetivo é desenvolver as tecnologias essenciais que impulsionarão esse futuro transformador”, afirmou o Professor Higashinaka.
Leia o Artigo Original Techxplore