Veo: O Nosso Modelo Mais Avançado de Geração de Vídeo

Veo: O Nosso Modelo Mais Avançado de Geração de Vídeo

Captura de ecrã por Sabrina Ortiz/ZDNET
Captura de ecrã por Sabrina Ortiz/ZDNET

A Veo produz vídeos de topo com resolução de 1080p em várias estéticas cinematográficas e visuais, com mais de um minuto de duração. Tirando partido de uma compreensão sofisticada da linguagem natural e da semântica visual, cria vídeos que reflectem fielmente o conceito artístico do utilizador – capturando de forma adequada o tom do pedido e apresentando meticulosamente os detalhes, mesmo em pedidos mais longos.

Este modelo oferece uma autoridade criativa sem paralelo e compreende a terminologia cinematográfica, como “timelapse” ou “imagens aéreas de uma paisagem”.

O Veo garante consistência e coerência nas filmagens, assegurando que os indivíduos, animais e objectos se movem de forma convincente ao longo dos planos.

Convidar os Realizadores a Explorar o Potencial Criativo do Veo

Para explorar a forma como o Veo pode melhorar o fluxo de trabalho criativo dos contadores de histórias, estamos a convidar cineastas e criadores de diversas origens a participar na experimentação do modelo.

Estas parcerias também servem para melhorar a nossa abordagem à conceção, construção e implementação das nossas tecnologias, garantindo que os criadores desempenham um papel integral no seu desenvolvimento.

Aqui está uma espreitadela à nossa colaboração com o cineasta Donald Glover e o seu estúdio criativo, Gilga, que utilizaram a Veo para um projeto cinematográfico futuro.

Compreensão Aumentada da Linguagem e dos Recursos Visuais

Uma melhor compreensão da linguagem e dos sinais visuais é essencial para que os modelos de vídeo generativo construam cenas coesas. Eles devem decifrar com precisão os avisos textuais e integrá-los com elementos visuais pertinentes.

Utilizando o sofisticado processamento de linguagem natural e a compreensão semântica visual, o Veo cria vídeos que cumprem fielmente as instruções fornecidas. Capta habilmente as subtilezas e o estado de espírito transmitidos no texto, retratando habilmente detalhes intrincados em cenas multifacetadas.

Quando lhe é fornecido um vídeo de entrada juntamente com uma diretiva de edição – tal como incorporar caiaques numa vista aérea de uma linha costeira – o Video pode executar esta diretiva no vídeo original, resultando num novo vídeo editado. Além disso, facilita a edição com máscara, permitindo alterações em regiões específicas do vídeo, adicionando uma área de máscara ao vídeo e ao prompt de texto.

Geração de Vídeo com Base em Imagens com o Veo

O Veo também possui a capacidade de gerar um vídeo com base numa imagem introduzida em conjunto com uma mensagem de texto. Ao apresentar uma imagem de referência juntamente com uma mensagem de texto, o Veo é condicionado a gerar um vídeo que adere ao estilo da imagem, seguindo as instruções fornecidas na mensagem do utilizador.

O modelo é capaz de criar clips de vídeo e de os prolongar para durações de 60 segundos ou mais. Consegue-o utilizando um único comando ou recebendo uma sequência de comandos que narram coletivamente uma história.

Instruções:

  1. Um plano em movimento rápido que atravessa uma área urbana distópica vibrante adornada com sinais de néon vívidos, veículos a pairar, ambiente enevoado, cenário noturno, reflexos de lente e iluminação volumétrica.
  2. Um plano em movimento rápido através de uma área urbana distópica futurista com sinais de néon radiantes, naves estelares a voar acima, atmosfera nocturna e iluminação volumétrica.
  3. Uma representação holográfica de um carro a correr à velocidade máxima, evocando um toque cinematográfico, pormenores intrincados e iluminação volumétrica.
  4. Os carros emergem do túnel, reentrando na agitada paisagem urbana de Hong Kong.
Pré-visualização do nosso trabalho com o realizador Donald Glover e o seu estúdio criativo, Gilga.

Veo: Um produto de uma Extensa Pesquisa de Modelos de Vídeo Generativos

O Veo representa o culminar de anos de desenvolvimento na nossa investigação de modelos de vídeo generativos, com base em projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere.

Isto incorpora uma mistura de arquitetura, leis de escala e técnicas inovadoras destinadas a melhorar a qualidade e a resolução de saída.

Com o Veo, aperfeiçoámos métodos para que o modelo compreenda o conteúdo de vídeo, gere imagens de alta definição, simule a física do mundo real e muito mais.

Estes avanços irão impulsionar o progresso dos nossos esforços de investigação em IA e permitir-nos-ão criar produtos ainda mais impactantes que facilitem novas formas de interação e comunicação.

A partir de hoje, o Veo está acessível a um grupo selecionado de criadores através de uma pré-visualização privada no VideoFX, bastando para isso aderir à nossa lista de espera. Além disso, planeamos integrar algumas das capacidades do Veo no YouTube Shorts e noutros produtos no futuro.

Com base numa extensa investigação em geração de vídeo, o Veo assenta em anos de desenvolvimento de modelos de vídeo generativos, incluindo projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere, bem como a nossa arquitetura Transformer e Gemini.

Para melhorar a capacidade do Veo para compreender e responder com precisão às solicitações, enriquecemos as legendas associadas a cada vídeo no seu conjunto de dados de treino com detalhes adicionais.

Além disso, para melhorar a eficiência e o desempenho, o modelo utiliza representações comprimidas e de alta qualidade do vídeo, conhecidas como latentes. Estas optimizações não só elevam a qualidade geral do vídeo, como também simplificam o processo de geração de vídeo.


Leia o Artigo Original: ZDNet

Leia mais: A IA da Microsoft Transforma uma Única Fotografia em Vídeos Reais

Share this post