Veo: O Nosso Modelo Mais Avançado de Geração de Vídeo

By Jorge Paka Apps & Software, Inteligência Artificial, Tech Veo, Vídeo Comentários desativados

A Veo produz vídeos de topo com resolução de 1080p em várias estéticas cinematográficas e visuais, com mais de um minuto de duração. Tirando partido de uma compreensão sofisticada da linguagem natural e da semântica visual, cria vídeos que reflectem fielmente o conceito artístico do utilizador – capturando de forma adequada o tom do pedido e apresentando meticulosamente os detalhes, mesmo em pedidos mais longos.

Este modelo oferece uma autoridade criativa sem paralelo e compreende a terminologia cinematográfica, como “timelapse” ou “imagens aéreas de uma paisagem”.

O Veo garante consistência e coerência nas filmagens, assegurando que os indivíduos, animais e objectos se movem de forma convincente ao longo dos planos.

Convidar os Realizadores a Explorar o Potencial Criativo do Veo

Para explorar a forma como o Veo pode melhorar o fluxo de trabalho criativo dos contadores de histórias, estamos a convidar cineastas e criadores de diversas origens a participar na experimentação do modelo.

Estas parcerias também servem para melhorar a nossa abordagem à conceção, construção e implementação das nossas tecnologias, garantindo que os criadores desempenham um papel integral no seu desenvolvimento.

Aqui está uma espreitadela à nossa colaboração com o cineasta Donald Glover e o seu estúdio criativo, Gilga, que utilizaram a Veo para um projeto cinematográfico futuro.

Compreensão Aumentada da Linguagem e dos Recursos Visuais

Uma melhor compreensão da linguagem e dos sinais visuais é essencial para que os modelos de vídeo generativo construam cenas coesas. Eles devem decifrar com precisão os avisos textuais e integrá-los com elementos visuais pertinentes.

Utilizando o sofisticado processamento de linguagem natural e a compreensão semântica visual, o Veo cria vídeos que cumprem fielmente as instruções fornecidas. Capta habilmente as subtilezas e o estado de espírito transmitidos no texto, retratando habilmente detalhes intrincados em cenas multifacetadas.

Quando lhe é fornecido um vídeo de entrada juntamente com uma diretiva de edição – tal como incorporar caiaques numa vista aérea de uma linha costeira – o Video pode executar esta diretiva no vídeo original, resultando num novo vídeo editado. Além disso, facilita a edição com máscara, permitindo alterações em regiões específicas do vídeo, adicionando uma área de máscara ao vídeo e ao prompt de texto.

Geração de Vídeo com Base em Imagens com o Veo

O Veo também possui a capacidade de gerar um vídeo com base numa imagem introduzida em conjunto com uma mensagem de texto. Ao apresentar uma imagem de referência juntamente com uma mensagem de texto, o Veo é condicionado a gerar um vídeo que adere ao estilo da imagem, seguindo as instruções fornecidas na mensagem do utilizador.

O modelo é capaz de criar clips de vídeo e de os prolongar para durações de 60 segundos ou mais. Consegue-o utilizando um único comando ou recebendo uma sequência de comandos que narram coletivamente uma história.

Instruções:

Um plano em movimento rápido que atravessa uma área urbana distópica vibrante adornada com sinais de néon vívidos, veículos a pairar, ambiente enevoado, cenário noturno, reflexos de lente e iluminação volumétrica.
Um plano em movimento rápido através de uma área urbana distópica futurista com sinais de néon radiantes, naves estelares a voar acima, atmosfera nocturna e iluminação volumétrica.
Uma representação holográfica de um carro a correr à velocidade máxima, evocando um toque cinematográfico, pormenores intrincados e iluminação volumétrica.
Os carros emergem do túnel, reentrando na agitada paisagem urbana de Hong Kong.

Pré-visualização do nosso trabalho com o realizador Donald Glover e o seu estúdio criativo, Gilga.

Veo: Um produto de uma Extensa Pesquisa de Modelos de Vídeo Generativos

O Veo representa o culminar de anos de desenvolvimento na nossa investigação de modelos de vídeo generativos, com base em projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere.

Isto incorpora uma mistura de arquitetura, leis de escala e técnicas inovadoras destinadas a melhorar a qualidade e a resolução de saída.

Com o Veo, aperfeiçoámos métodos para que o modelo compreenda o conteúdo de vídeo, gere imagens de alta definição, simule a física do mundo real e muito mais.

Estes avanços irão impulsionar o progresso dos nossos esforços de investigação em IA e permitir-nos-ão criar produtos ainda mais impactantes que facilitem novas formas de interação e comunicação.

A partir de hoje, o Veo está acessível a um grupo selecionado de criadores através de uma pré-visualização privada no VideoFX, bastando para isso aderir à nossa lista de espera. Além disso, planeamos integrar algumas das capacidades do Veo no YouTube Shorts e noutros produtos no futuro.

Com base numa extensa investigação em geração de vídeo, o Veo assenta em anos de desenvolvimento de modelos de vídeo generativos, incluindo projectos como o Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere, bem como a nossa arquitetura Transformer e Gemini.

Para melhorar a capacidade do Veo para compreender e responder com precisão às solicitações, enriquecemos as legendas associadas a cada vídeo no seu conjunto de dados de treino com detalhes adicionais.

Além disso, para melhorar a eficiência e o desempenho, o modelo utiliza representações comprimidas e de alta qualidade do vídeo, conhecidas como latentes. Estas optimizações não só elevam a qualidade geral do vídeo, como também simplificam o processo de geração de vídeo.

Leia o Artigo Original: ZDNet

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Veo: O Nosso Modelo Mais Avançado de Geração de Vídeo