GPT-4o Processa Texto, Áudio ou Imagens para Respostas de Chat Instantâneo

GPT-4o Processa Texto, Áudio ou Imagens para Respostas de Chat Instantâneo

GPT-4o ajuda a resolver uma equação de álgebra escrita à mão como parte da demonstração de hoje
OpenAI

A plataforma ChatGPT da OpenAI deu um salto significativo com a introdução do GPT-4o. Este modelo de primeira linha pode analisar entradas de áudio, visual e texto, fornecendo respostas através de uma conversa em tempo real com um agente de IA que soa notavelmente humano.

Revelado durante um evento de lançamento online na segunda-feira, 13 de maio, pela CTO da OpenAI, Mira Murati, o GPT-4o é anunciado como um passo em direção a uma interação homem-computador significativamente mais perfeita. O ‘o’ no seu nome significa “omni”.

Desempenho e Relação Custo-Eficácia do GPT-4o

Orientado para melhorar a experiência do utilizador para os utilizadores de serviços gratuitos, afirma igualar o desempenho do modelo GPT-4 Turbo pago no processamento de texto e código, sendo também mais rápido e 50% mais rentável em termos de utilização da API. Isto permite uma integração perfeita em aplicações de terceiros a um custo reduzido.

Para iniciar a interação, os utilizadores simplesmente pronunciam “Hey, ChatGPT”, obtendo uma resposta oral animada do agente.

Podem então articular a sua consulta utilizando linguagem natural, complementada com texto, áudio e/ou entradas visuais, conforme necessário – estas últimas englobando imagens, imagens de câmaras em direto do seu dispositivo ou praticamente quaisquer outros dados visuais que o agente possa interpretar.

Tempos de Resposta Comparáveis e Capacidades Multilingues

Em termos de entradas de áudio, a IA apresenta um tempo de resposta médio de 320 milissegundos, um valor comparável aos tempos de resposta de conversação humana, de acordo com a empresa. Além disso, o sistema domina atualmente mais de 50 línguas.

Durante o anúncio e a demonstração de hoje, não se registaram atrasos visíveis nas respostas do agente, que foram notoriamente impregnadas de emoção humana – longe de se assemelharem ao HAL 9000. Além disso, os utilizadores podiam interromper as respostas do agente sem perturbar o fluxo da conversa.

Capacidades Multifacetadas da GPT-4o

Na demonstração, o GPT-4o desempenhou várias funções, tais como interpretar uma conversa italiano-inglesa entre dois indivíduos, ajudar a resolver uma equação de álgebra escrita à mão, analisar secções específicas do código de programação e até improvisar uma história para adormecer com um robô.

Para concluir, o GPT-4o está agora acessível para utilização geral, com funcionalidades adicionais a serem reveladas nas próximas semanas. Pode ver as suas capacidades em primeira mão no vídeo abaixo.

Pedra, Papel, Tesoura com GPT-4o

Leia O Artigo Original: New Atlas

Leia Mais: Funcionários da Amazon já Estão Usando o ChatGPT Para Codificação de Software

Share this post