GPT-4o Processa Texto, Áudio ou Imagens para Respostas de Chat Instantâneo
A plataforma ChatGPT da OpenAI deu um salto significativo com a introdução do GPT-4o. Este modelo de primeira linha pode analisar entradas de áudio, visual e texto, fornecendo respostas através de uma conversa em tempo real com um agente de IA que soa notavelmente humano.
Revelado durante um evento de lançamento online na segunda-feira, 13 de maio, pela CTO da OpenAI, Mira Murati, o GPT-4o é anunciado como um passo em direção a uma interação homem-computador significativamente mais perfeita. O ‘o’ no seu nome significa “omni”.
Desempenho e Relação Custo-Eficácia do GPT-4o
Orientado para melhorar a experiência do utilizador para os utilizadores de serviços gratuitos, afirma igualar o desempenho do modelo GPT-4 Turbo pago no processamento de texto e código, sendo também mais rápido e 50% mais rentável em termos de utilização da API. Isto permite uma integração perfeita em aplicações de terceiros a um custo reduzido.
Para iniciar a interação, os utilizadores simplesmente pronunciam “Hey, ChatGPT”, obtendo uma resposta oral animada do agente.
Podem então articular a sua consulta utilizando linguagem natural, complementada com texto, áudio e/ou entradas visuais, conforme necessário – estas últimas englobando imagens, imagens de câmaras em direto do seu dispositivo ou praticamente quaisquer outros dados visuais que o agente possa interpretar.
Tempos de Resposta Comparáveis e Capacidades Multilingues
Em termos de entradas de áudio, a IA apresenta um tempo de resposta médio de 320 milissegundos, um valor comparável aos tempos de resposta de conversação humana, de acordo com a empresa. Além disso, o sistema domina atualmente mais de 50 línguas.
Durante o anúncio e a demonstração de hoje, não se registaram atrasos visíveis nas respostas do agente, que foram notoriamente impregnadas de emoção humana – longe de se assemelharem ao HAL 9000. Além disso, os utilizadores podiam interromper as respostas do agente sem perturbar o fluxo da conversa.
Capacidades Multifacetadas da GPT-4o
Na demonstração, o GPT-4o desempenhou várias funções, tais como interpretar uma conversa italiano-inglesa entre dois indivíduos, ajudar a resolver uma equação de álgebra escrita à mão, analisar secções específicas do código de programação e até improvisar uma história para adormecer com um robô.
Para concluir, o GPT-4o está agora acessível para utilização geral, com funcionalidades adicionais a serem reveladas nas próximas semanas. Pode ver as suas capacidades em primeira mão no vídeo abaixo.
Leia O Artigo Original: New Atlas
Leia Mais: Funcionários da Amazon já Estão Usando o ChatGPT Para Codificação de Software