Veo: O Nosso Modelo Mais Avançado de Geração de Vídeo
A Veo produz vídeos de topo com resolução de 1080p em várias estéticas cinematográficas e visuais, com mais de um minuto de duração. Tirando partido de uma compreensão sofisticada da linguagem natural e da semântica visual, cria vídeos que reflectem fielmente o conceito artístico do utilizador – capturando de forma adequada o tom do pedido e apresentando meticulosamente os detalhes, mesmo em pedidos mais longos.
Este modelo oferece uma autoridade criativa sem paralelo e compreende a terminologia cinematográfica, como “timelapse” ou “imagens aéreas de uma paisagem”.
O Veo garante consistência e coerência nas filmagens, assegurando que os indivíduos, animais e objectos se movem de forma convincente ao longo dos planos.
Convidar os Realizadores a Explorar o Potencial Criativo do Veo
Para explorar a forma como o Veo pode melhorar o fluxo de trabalho criativo dos contadores de histórias, estamos a convidar cineastas e criadores de diversas origens a participar na experimentação do modelo.
Estas parcerias também servem para melhorar a nossa abordagem à conceção, construção e implementação das nossas tecnologias, garantindo que os criadores desempenham um papel integral no seu desenvolvimento.
Aqui está uma espreitadela à nossa colaboração com o cineasta Donald Glover e o seu estúdio criativo, Gilga, que utilizaram a Veo para um projeto cinematográfico futuro.
Compreensão Aumentada da Linguagem e dos Recursos Visuais
Uma melhor compreensão da linguagem e dos sinais visuais é essencial para que os modelos de vídeo generativo construam cenas coesas. Eles devem decifrar com precisão os avisos textuais e integrá-los com elementos visuais pertinentes.
Utilizando o sofisticado processamento de linguagem natural e a compreensão semântica visual, o Veo cria vídeos que cumprem fielmente as instruções fornecidas. Capta habilmente as subtilezas e o estado de espírito transmitidos no texto, retratando habilmente detalhes intrincados em cenas multifacetadas.
Quando lhe é fornecido um vídeo de entrada juntamente com uma diretiva de edição – tal como incorporar caiaques numa vista aérea de uma linha costeira – o Video pode executar esta diretiva no vídeo original, resultando num novo vídeo editado. Além disso, facilita a edição com máscara, permitindo alterações em regiões específicas do vídeo, adicionando uma área de máscara ao vídeo e ao prompt de texto.
Geração de Vídeo com Base em Imagens com o Veo
O Veo também possui a capacidade de gerar um vídeo com base numa imagem introduzida em conjunto com uma mensagem de texto. Ao apresentar uma imagem de referência juntamente com uma mensagem de texto, o Veo é condicionado a gerar um vídeo que adere ao estilo da imagem, seguindo as instruções fornecidas na mensagem do utilizador.
O modelo é capaz de criar clips de vídeo e de os prolongar para durações de 60 segundos ou mais. Consegue-o utilizando um único comando ou recebendo uma sequência de comandos que narram coletivamente uma história.
Instruções:
- Um plano em movimento rápido que atravessa uma área urbana distópica vibrante adornada com sinais de néon vívidos, veículos a pairar, ambiente enevoado, cenário noturno, reflexos de lente e iluminação volumétrica.
- Um plano em movimento rápido através de uma área urbana distópica futurista com sinais de néon radiantes, naves estelares a voar acima, atmosfera nocturna e iluminação volumétrica.
- Uma representação holográfica de um carro a correr à velocidade máxima, evocando um toque cinematográfico, pormenores intrincados e iluminação volumétrica.
- Os carros emergem do túnel, reentrando na agitada paisagem urbana de Hong Kong.
Veo: Um produto de uma Extensa Pesquisa de Modelos de Vídeo Generativos
O Veo representa o culminar de anos de desenvolvimento na nossa investigação de modelos de vídeo generativos, com base em projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere.
Isto incorpora uma mistura de arquitetura, leis de escala e técnicas inovadoras destinadas a melhorar a qualidade e a resolução de saída.
Com o Veo, aperfeiçoámos métodos para que o modelo compreenda o conteúdo de vídeo, gere imagens de alta definição, simule a física do mundo real e muito mais.
Estes avanços irão impulsionar o progresso dos nossos esforços de investigação em IA e permitir-nos-ão criar produtos ainda mais impactantes que facilitem novas formas de interação e comunicação.
A partir de hoje, o Veo está acessível a um grupo selecionado de criadores através de uma pré-visualização privada no VideoFX, bastando para isso aderir à nossa lista de espera. Além disso, planeamos integrar algumas das capacidades do Veo no YouTube Shorts e noutros produtos no futuro.
Com base numa extensa investigação em geração de vídeo, o Veo assenta em anos de desenvolvimento de modelos de vídeo generativos, incluindo projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere, bem como a nossa arquitetura Transformer e Gemini.
Para melhorar a capacidade do Veo para compreender e responder com precisão às solicitações, enriquecemos as legendas associadas a cada vídeo no seu conjunto de dados de treino com detalhes adicionais.
Além disso, para melhorar a eficiência e o desempenho, o modelo utiliza representações comprimidas e de alta qualidade do vídeo, conhecidas como latentes. Estas optimizações não só elevam a qualidade geral do vídeo, como também simplificam o processo de geração de vídeo.
Leia o Artigo Original: ZDNet
Leia mais: A IA da Microsoft Transforma uma Única Fotografia em Vídeos Reais