A IA Gemini do Google supera a GPT e os Especialistas Humanos em 57 Assuntos
O Google apresentou sua impressionante IA Gemini de última geração, afirmando sua superioridade em relação ao GPT-4 da OpenAI e aos especialistas humanos em quase todas as avaliações significativas. A IA Gemini demonstra proficiência na compreensão de imagens, vídeo, áudio, texto e código, com planos de adquirir outros sentidos no futuro.
Com 90,0% de pontuação no teste MMLU (Massive Multitask Language Understanding), o Gemini AI se torna o primeiro modelo a superar os especialistas humanos (89,8%) e a superar o GPT-4 (86,4%) em diversas tarefas de conhecimento e solução de problemas que abrangem 57 assuntos, incluindo áreas como matemática, física, história, direito, medicina e ética. É importante observar que esses especialistas não representam a média das pessoas.
Diversidade de Treinamento e Compreensão Diferenciada do Gemini
Na verdade, o Gemini é inerentemente multimodal, o que significa que seu conjunto de dados de treinamento inicial incluía uma quantidade substancial de mídias diversas além do texto. Consequentemente, ele demonstra proficiência na compreensão de informações visuais e auditivas com a mesma eficácia com que o faz com o texto. Ao contrário de outros modelos de linguagem que geralmente interpretam vídeos e imagens principalmente em termos textuais, o Gemini preserva todo o tom e as nuances das fontes originais de vídeo, áudio e imagem.
Embora o vídeo abaixo sirva como uma demonstração polida do produto e deva ser visto com certo ceticismo, ele oferece uma visão valiosa das implicações práticas dos verdadeiros recursos multimodais do Gemini.
Qual é a principal conclusão? As IAs estão sendo treinadas com conjuntos de dados sensoriais cada vez mais extensos para emular os processos de aprendizagem empregados pelos seres humanos na interação com o ambiente. Com uma compreensão visual e auditiva aprimorada, o Gemini avança na percepção e no raciocínio. Uma vez integrado aos dispositivos do Google, começando com os próximos telefones Pixel, ele será capaz de auxiliar em várias tarefas diárias.
De acordo com o CEO do Google Deepmind, Demis Hassabis, essa progressão está pronta para se estender à próxima dimensão sensorial lógica: toque e feedback tátil. Embora o Google já seja um participante proeminente na robótica de IA, a incorporação de um modelo de alto conhecimento como o Gemini, com a capacidade de compreender o mundo por meio do toque, impulsionará a robótica, tanto humanoide quanto não humanoide, para territórios inexplorados.
Proficiência do Gemini na geração de código para metaconhecimento a partir de vastos conjuntos de dados
A multimodalidade é apenas um recurso notável entre muitos outros, mas, assim como o GPT-4, o Gemini é uma ferramenta abrangente, o que torna difícil saber por onde começar. Talvez valha a pena destacar suas possíveis contribuições para a ciência? No vídeo apresentado, os cientistas da Deepmind ilustram como o Gemini tem a capacidade de gerar seu próprio código para ler e compreender 200.000 estudos científicos. Ele filtra os estudos quanto à relevância usando seus recursos intrínsecos de raciocínio, compila dados e gera efetivamente um novo metaconhecimento. A equipe afirma ter feito isso durante a pausa para o almoço, enfatizando sua aplicabilidade a outros domínios, como o direito, em que extensos conjuntos de dados exigem um exame minucioso.
Com relação à codificação, a Gemini demonstra proficiência nas linguagens de programação Python, Java, C++ e Go. O Google já está demonstrando sua capacidade de criar sites que geram código dinamicamente com base nas interações do usuário, adaptando-se às necessidades dos usuários à medida que elas se tornam aparentes. Isso marca uma nova abordagem para a Internet, em que uma única página evolui para atender às suas necessidades assim que as percebe.
O Extraordinário poder do Gemini na criação de Interfaces Gráficas de usuário Dinâmicas para Tarefas Diárias
O vídeo de demonstração se concentra em um cenário relativamente simples – planejar a festa de aniversário de uma criança. No entanto, ele exemplifica os recursos extraordinários que o Gemini possui, imaginando como ele poderia gerar interfaces gráficas de usuário para praticamente qualquer tarefa concebível. Esse é um recurso exclusivo que só pode ser alcançado por meio da IA, semelhante a ter um programador de aplicativos da Web trabalhando ao seu lado, mas com a capacidade de operar em um ritmo significativamente acelerado.
Como qualquer ferramenta de IA, o Gemini é altamente interativo. Se ela não fornecer exatamente o que você deseja, você pode comunicar suas preferências e ela se ajustará de acordo ou entrará em uma conversa para determinar o melhor curso de ação. Isso mostra a mudança transformadora em nossas interações com a tecnologia.
Na codificação, o projeto AlphaCode 2 da Deepmind envolve o treinamento de vários modelos Gemini para aspectos distintos do processo de programação. A iniciativa implanta um enxame de agentes de programação para gerar até um milhão de trechos de código para resolver um problema. Um modelo Gemini separado avalia essas amostras, descartando cerca de 95% com base na compilação e na eficácia.
Triunfo de codificação do AlphaCode 2
Outro modelo Gemini desenvolve uma estrutura de teste de código, realiza testes completos e classifica as amostras de código restantes quanto à correção. O Deepmind transformou efetivamente a Gemini em uma equipe de software multifuncional, destacando-se em uma competição de codificação em que superou 87% dos participantes, posicionando-a entre as categorias “Expert” e “Candidate Master” no Codeforces. Esse sucesso ressalta a necessidade de uma compreensão racional excepcional e do uso criativo de ferramentas de software em tais competições.
Apesar de seu desempenho impressionante, não se espera que o AlphaCode 2 seja imediatamente acessível ao público, e é improvável que sua forma atual seja lançada devido à grande capacidade de computação necessária para gerar um milhão de trechos de código. Embora a taxa de sucesso permaneça consistente com um milhão de trechos e possa melhorar ainda mais com bilhões ou trilhões de trechos, a abordagem atual é ineficiente. No entanto, o rápido progresso nesse campo indica a probabilidade do surgimento de um método mais eficiente em breve.
Ofertas variadas da Gemini
Para concluir, a deepmind está considerando uma versão simplificada do AlphaCode 2 para lançamento público. No entanto, o Google está pronto para lançar o Gemini em três tamanhos: Gemini Nano para dispositivos móveis, Gemini Pro, comparável ao GPT-3.5 para várias tarefas, e Gemini Ultra, o maior modelo que supera o GPT-4 em testes de benchmark. Espera-se que o Gemini Ultra seja lançado publicamente no próximo ano, após avaliações de segurança. O Gemini Nano já está no Pixel 8 Pro, e o Gemini Pro está disponível gratuitamente no Google Bard. O Google planeja integrar o Gemini em seus produtos, sinalizando desenvolvimentos contínuos.
Leia o Artigo Original: New Atlas
Leia Mais:França e Itália Colaboram na Construção de um Habitat Lunar