Um Novo e Difícil Teste AGI Revela-se Demasiado Desafiante para a Maioria dos Modelos de IA

Créditos da imagem: Boris SV / Getty Images
A Arc Prize Foundation, uma organização sem fins lucrativos co-fundada pelo investigador de IA François Chollet, revelou num blogue na segunda-feira que desenvolveu um novo teste altamente desafiante para avaliar a inteligência geral dos modelos avançados de IA.
Este novo teste, denominado ARC-AGI-2, revelou-se difícil para a maioria dos modelos.
De acordo com a tabela de classificação do Prémio Arc, os modelos de IA baseados no raciocínio, como o o1-pro da OpenAI e o R1 da DeepSeek, obtiveram uma pontuação entre 1% e 1,3% no ARC-AGI-2. Entretanto, os modelos de alto desempenho sem raciocínio, como o GPT-4.5, o Claude 3.7 Sonnet e o Gemini 2.0 Flash, obtiveram cerca de 1%.
ARC-AGI desafia a IA com tarefas de reconhecimento de padrões invisíveis
Os testes ARC-AGI apresentam desafios semelhantes a puzzles em que os modelos de IA têm de reconhecer padrões visuais a partir de grelhas de quadrados de cores diferentes e gerar a grelha de resposta correta. Estas tarefas foram especificamente concebidas para testar a capacidade de uma IA para se adaptar a novos problemas com que nunca se deparou antes.
A Fundação do Prémio Arc fez com que mais de 400 pessoas tentassem o ARC-AGI-2 para estabelecer uma base de referência humana. Em média, os grupos de participantes responderam corretamente a 60% das perguntas do teste, superando significativamente todos os modelos de IA testados.

Um exemplo de pergunta do Arc-AGI-2 (crédito: Prémio Arc).
Num post no X, François Chollet afirmou que o ARC-AGI-2 fornece uma avaliação mais precisa da inteligência de um modelo de IA do que o seu antecessor, o ARC-AGI-1. Os testes da Arc Prize Foundation foram concebidos para determinar se os sistemas de IA podem efetivamente aprender novas competências para além dos seus dados de formação.
De acordo com Chollet, o ARC-AGI-2 elimina a capacidade dos modelos de IA de se basearem na “força bruta” – utilizando um vasto poder de computação para resolver problemas – uma fraqueza significativa do ARC-AGI-1 que ele reconheceu anteriormente.
Para ultrapassar as limitações do primeiro teste, o ARC-AGI-2 introduz uma nova métrica fundamental: a eficiência. Também exige que os modelos analisem padrões em tempo real, em vez de se basearem na memorização.
“A inteligência não é apenas a resolução de problemas ou a obtenção de pontuações elevadas”, escreveu o cofundador da Arc Prize Foundation, Greg Kamradt, num blogue. “A eficiência com que estas capacidades são adquiridas e aplicadas é um fator crucial. A verdadeira questão não é apenas: “A IA pode desenvolver a capacidade de resolver uma tarefa?”, mas também: “A que custo e eficiência?””
Avanços e limitações: O modelo o3 da OpenAI supera o ARC-AGI-1, mas a um custo elevado
Durante quase cinco anos, o ARC-AGI-1 permaneceu imbatível até dezembro de 2024, quando o modelo de raciocínio avançado da OpenAI, o3, ultrapassou todos os outros sistemas de IA e igualou o desempenho humano no teste. No entanto, como já foi referido, estas melhorias tiveram um custo computacional elevado.
A primeira versão do modelo o3 da OpenAI a bater recordes no ARC-AGI-1-o3 (baixo), com uma pontuação de 75,7%, teve um desempenho significativamente pior no ARC-AGI-2, atingindo apenas 4% e utilizando uma potência de computação de 200 dólares por tarefa.

Comparação do desempenho do modelo Frontier AI no ARC-AGI-1 e no ARC-AGI-2 (crédito: Prémio Arc).
O lançamento do ARC-AGI-2 surge numa altura em que muitos intervenientes na indústria tecnológica defendem a criação de novos padrões de referência não saturados para acompanhar os avanços da IA. O cofundador da Hugging Face, Thomas Wolf, disse recentemente ao TechCrunch que o campo da IA carece de testes adequados para avaliar os principais aspectos da inteligência artificial geral, como a criatividade.
Para além de apresentar o novo parâmetro de referência, a Arc Prize Foundation anunciou o concurso Arc Prize 2025, que desafia os programadores a alcançar uma precisão de 85% no teste ARC-AGI-2, mantendo os custos computacionais em apenas 0,42 dólares por tarefa.
Leia o Artigo Original: TechCrunch
Leia mais: Cientistas Observam Células Vegetais Vivas Produzindo Celulose pela 1ª vez
Deixe um comentário