A IA da Microsoft Transforma uma Única Fotografia em Vídeos Reais

A IA da Microsoft Transforma uma Única Fotografia em Vídeos Reais

O modelo de IA VASA-1 pode gerar imagens de vídeo realistas de cabeças falantes a partir de uma única fotografia de referência, que é sincronizada com uma faixa de áudio.
O modelo de IA VASA-1 pode gerar imagens de vídeo realistas de cabeças falantes a partir de uma única fotografia de referência, que é sincronizada com uma faixa de áudio.
Investigação da Microsoft na Ásia

A Microsoft Research Asia revelou um modelo de IA capaz de produzir vídeos deepfake incrivelmente realistas utilizando apenas uma única imagem e um clipe de áudio. Esta evolução suscita preocupações quanto à credibilidade dos conteúdos visuais e auditivos online.

A IA tem superado sistematicamente os seres humanos em vários testes de referência, o que leva muitos a se preocuparem com a substituição de postos de trabalho por parte dos algoritmos. Vimos dispositivos inteligentes comuns evoluírem para ferramentas essenciais, desde o auxílio nas tarefas diárias até o aumento da produtividade. Alguns modelos de IA podem até produzir sons realistas para vídeos silenciosos e gerar conteúdos de vídeo a partir de entradas de texto. A estrutura VASA-1 da Microsoft assinala outro avanço significativo neste domínio.

Dominando o Realismo com o VASA-1

Treinado com aproximadamente 6.000 rostos falantes reais do conjunto de dados VoxCeleb2, o VASA-1 pode criar vídeos altamente realistas. Os sujeitos animados não só se sincronizam com precisão com o áudio fornecido, mas também exibem diversas expressões faciais e movimentos naturais da cabeça, todos derivados de uma única imagem estática.

Embora semelhante ao Modelo de Difusão Audio2Video da Alibaba, o VASA-1 apresenta um fotorrealismo e uma precisão ainda maiores. Ele pode gerar vídeos sincronizados com 512×512 pixels e 40 quadros por segundo com latência mínima.

O modelo de IA VASA-1 é capaz de gerar um vídeo real assustador que não só é capaz de sincronizar os lábios com uma faixa de áudio de voz fornecida, como também inclui expressões faciais e movimentos naturais da cabeça - tudo a partir de uma única imagem estática da cabeça.
O modelo de IA VASA-1 é capaz de gerar um vídeo real assustador que não só é capaz de sincronizar os lábios com uma faixa de áudio de voz fornecida, como também inclui expressões faciais e movimentos naturais da cabeça – tudo a partir de uma única imagem estática da cabeça.
Investigação da Microsoft na Ásia

Embora as demonstrações do projeto tenham utilizado principalmente fotografias de referência geradas por IA a partir de StyleGAN2 ou DALL-E, um exemplo notável do mundo real mostrou a capacidade da estrutura de ir além dos seus dados de treino: uma Mona Lisa que sabe fazer rap!

A página do projeto apresenta vários exemplos de vídeos falados e cantados criados a partir de uma única imagem emparelhada com uma faixa de áudio. Além disso, a ferramenta oferece definições opcionais para ajustar a “dinâmica facial e as posições da cabeça”, incluindo emoções, expressões, distância da câmera e direção do olhar. Esta funcionalidade proporciona uma flexibilidade significativa.

Rostos Falantes Gerados por IA que Redefinem as Relações entre Humanos e IA

De acordo com o artigo que apresenta esta conquista, o surgimento de rostos falantes gerados por IA abre portas para um futuro em que a tecnologia melhora as interações humano-humano e humano-IA.

Esta tecnologia tem o potencial de melhorar a comunicação digital, aumentar a acessibilidade para pessoas com dificuldades de comunicação, revolucionar a educação através da tutoria interativa da IA e oferecer apoio terapêutico e social nos cuidados de saúde.

Riscos

Embora esses avanços sejam louváveis, os pesquisadores também reconhecem os riscos de uma utilização incorreta. Num período em que distinguir fatos de ficção nas notícias online é um desafio, imagine ter uma ferramenta que pode fazer com que qualquer pessoa pareça dizer qualquer coisa.

Isso pode ir desde brincadeiras inofensivas, como receber uma chamada FaceTime de uma celebridade querida, até atos mais sinistros, como incriminar alguém por um crime com uma confissão fabricada, enganar indivíduos fazendo-se passar por um membro da família em perigo ou manipular apoios políticos para agendas controversas – tudo apresentado de forma convincente.

No entanto, o conteúdo gerado pelo modelo VASA-1 apresenta “artefatos identificáveis” e os pesquisadores planejam não divulgá-lo ao público “até termos a certeza de que a tecnologia será utilizada de forma responsável e em conformidade com os regulamentos apropriados”. O documento de pesquisa que descreve este projeto está disponível no servidor arXiv.


Leia o Artigo Original New Atlas

Leia mais Os Robôs de IA podem agora Auto-reparar outros Robôs e Escrita de Livros sem Esforço com IA: um Guia Passo-a-Passo

Share this post