Google Apresenta uma Nova Geração de Modelos de Raciocínio de IA

Créditos da imagem: Google DeepMind
Na terça-feira, a Google apresentou o Gemini 2.5, uma nova família de modelos de raciocínio de IA concebidos para fazer uma pausa e “pensar” antes de responder a perguntas.
O primeiro desta série, o Gemini 2.5 Pro Experimental, é um modelo de IA multimodal que a Google descreve como o mais avançado até à data. A partir de terça-feira, ele estará disponível no Google AI Studio e no aplicativo Gemini para assinantes do plano de IA de US $ 20 por mês da empresa, Gemini Advanced.
A Google planeia integrar capacidades de raciocínio em todos os futuros modelos de IA.
Gigantes da tecnologia competem pelo avanço dos modelos de raciocínio de IA após o lançamento do o1 da OpenAI
Desde que a OpenAI lançou o primeiro modelo de raciocínio de IA, o1, em setembro de 2024, as empresas de tecnologia têm competido para desenvolver modelos comparáveis ou superiores. Atualmente, empresas como a Anthropic, a DeepSeek, a Google e a xAI introduziram modelos de raciocínio de IA que aproveitam o poder de computação adicional e o tempo de processamento para verificar factos e analisar problemas antes de dar respostas.
As técnicas de raciocínio da IA melhoraram significativamente o desempenho em tarefas matemáticas e de codificação. Muitos na indústria tecnológica vêem estes modelos como essenciais para os agentes de IA – sistemas autónomos capazes de realizar tarefas com um mínimo de intervenção humana. No entanto, estes avanços têm custos mais elevados.
A Google já explorou anteriormente modelos de raciocínio de IA, introduzindo uma versão “pensante” do Gemini em dezembro. No entanto, o Gemini 2.5 marca o esforço mais ambicioso da empresa para ultrapassar os modelos da série O da OpenAI.
Google: Gemini 2.5 Pro supera os rivais em aplicações Web e codificação agêntica
De acordo com a Google, o Gemini 2.5 Pro supera os seus modelos anteriores de IA de fronteira e alguns dos principais concorrentes em vários benchmarks. O modelo foi especificamente concebido para se destacar no desenvolvimento de aplicações Web visualmente ricas e de aplicações de codificação agêntica.
Na avaliação Aider Polyglot, que mede o desempenho da edição de código, o Google informa que o Gemini 2.5 Pro obteve uma pontuação de 68,6%, superando os principais modelos de IA da OpenAI, Anthropic e DeepSeek.
No entanto, no teste SWE-bench Verified, que avalia as capacidades de desenvolvimento de software, o Gemini 2.5 Pro obteve uma pontuação de 63,8%. Embora tenha superado o o3-mini da OpenAI e o R1 da DeepSeek, ficou aquém do Claude 3.7 Sonnet da Anthropic, que liderou com 70,3%.
No Humanity’s Last Exam – uma avaliação multimodal que abrange matemática, humanidades e ciências naturais – o Gemini 2.5 Pro obteve uma pontuação de 18,8%, superando a maioria dos modelos emblemáticos concorrentes.
No lançamento, o Gemini 2.5 Pro inclui uma janela de contexto de 1 milhão de tokens, o que lhe permite processar cerca de 750.000 palavras numa única sessão – ultrapassando a duração da série O Senhor dos Anéis. O Google também planeja expandir essa capacidade para 2 milhões de tokens em breve.
A empresa ainda não divulgou os preços da API para o Gemini 2.5 Pro, mas promete mais detalhes nas próximas semanas.
Leia o Artigo Original: TechCrunch
Leia mais: Estudo Descobre que os Ciclos Menstruais não têm Impacto nas Habilidades Cognitivas das Mulheres
Deixe um comentário