Modelos de IA de Visão e Linguagem Geram Descrições em Vídeo para Auxiliar Usuários Cegos

Créditos da Imagem: Pixabay
Para pessoas cegas ou com baixa visão, as audiodescrições de ações na tela em filmes e programas de TV são cruciais para acompanhar o enredo. Embora as redes e plataformas de streaming normalmente contratem profissionais para produzir essas descrições, a grande maioria dos vídeos em plataformas como YouTube e TikTok não possui esses recursos de acessibilidade.
Isso não significa que as pessoas não estejam interessadas no conteúdo.
Plataforma de Crowdsourcing com Tecnologia de IA Permite que Usuários Cegos Solicitem e Avaliem Descrições de Vídeos
Para ajudar a tornar os vídeos gerados por usuários mais acessíveis, pesquisadores da Northeastern University estão usando modelos de visão e linguagem (VLMs) de IA para gerar audiodescrições por meio de uma plataforma de crowdsourcing chamada YouDescribe. Semelhante a um sistema de biblioteca, usuários cegos e com baixa visão podem solicitar descrições para vídeos específicos e, em seguida, avaliar e até mesmo contribuir com as suas próprias.
“Faz sentido que um vídeo curto de 20 segundos no TikTok de alguém dançando possa não ter uma descrição profissional”, diz Lana Do, que obteve seu mestrado em ciência da computação no campus do Vale do Silício da Northeastern em maio. “Mas usuários cegos e com baixa visão ainda podem querer experimentar aquele vídeo dançando.”
Um exemplo: um videoclipe de 2020 da música “Dynamite”, do BTS, está no topo da lista de desejos do YouDescribe, aguardando para ser descrito. Embora a plataforma tenha cerca de 3.000 descritores voluntários, a demanda excede em muito a capacidade. Atualmente, apenas 7% dos vídeos solicitados na lista de desejos foram descritos, de acordo com Do.
Do conduz sua pesquisa no laboratório de Ilmi Yoon, professor de ciência da computação no campus do Vale do Silício da Northeastern. Yoon se juntou à equipe do YouDescribe em 2018 para ajudar a integrar o aprendizado de máquina à plataforma.
Novas Ferramentas Aumentam a Precisão e a Acessibilidade do YouDescribe
Este ano, Do introduziu diversas melhorias para aumentar a eficiência do processo de interação humana do YouDescribe. A mais recente tecnologia de modelo de visão e linguagem (VLM) agora oferece descrições de áudio de alta qualidade, e um novo recurso de “infobot” permite que os usuários façam perguntas sobre quadros específicos do vídeo. Além disso, uma interface de edição colaborativa permite que usuários com baixa visão corrijam quaisquer imprecisões nas descrições, explica Do.
O objetivo é tornar as descrições de conteúdo em vídeo mais precisas e prontamente disponíveis. Rascunhos gerados por IA ajudam a reduzir a carga de trabalho dos descritores humanos, enquanto os usuários podem participar ativamente fornecendo avaliações e feedback, explica Do.
“Por exemplo, alguém pode assistir a um documentário sobre uma floresta, ouvir um som de bater de asas não descrito e se perguntar o que o causou”, diz ela.
Exibindo o Potencial da IA
Do e sua equipe apresentaram recentemente um artigo no Simpósio sobre Interação Humano-Computador para o Trabalho em Amsterdã, destacando como a IA pode ajudar a acelerar a criação de audiodescrições. De acordo com Yoon, a IA tem um desempenho surpreendentemente bom na descrição de gestos e expressões faciais humanas. Em uma demonstração, uma IA descreve o processo passo a passo de um chef para fazer rolinhos de queijo.
No entanto, os desafios permanecem. Yoon observa que a IA tem dificuldades para interpretar expressões faciais em personagens animados e frequentemente ignora os elementos mais cruciais de uma cena — uma área em que os humanos se destacam, especialmente quando clareza e relevância são essenciais em uma descrição.
“É uma tarefa muito trabalhosa”, diz Yoon.
Alunos de pós-graduação em seu laboratório analisam como os rascunhos gerados pela IA se comparam às descrições escritas por humanos.
“Identificamos as lacunas e usamos esses dados para melhorar o desempenho da IA”, explica ela. “Usuários cegos não querem narrações exageradas ou desnecessárias. Criar uma boa descrição é, na verdade, uma habilidade editorial — capturar o que é mais importante de forma clara e concisa.”
O Smith-Kettlewell Eye Research Institute, com sede em São Francisco, lançou o YouDescribe em 2013 para treinar voluntários com visão na produção de audiodescrições. A plataforma se concentra em tornar os vídeos do YouTube e do TikTok acessíveis, oferecendo tutoriais sobre como gravar e sincronizar a narração de forma eficaz para conteúdo gerado pelo usuário.
Leia o Artigo Original Tech Xplore
Leia mais Atletas Robôs Chineses Estão Roubando os Holofotes dos Jogadores de Futebol Humanos