Um Novo e Difícil Teste AGI Revela-se Demasiado Desafiante para a Maioria dos Modelos de IA

By Marcílio Santos Tech IA, Teste AGI 0 Comments

Créditos da imagem: Boris SV / Getty Images

A Arc Prize Foundation, uma organização sem fins lucrativos co-fundada pelo investigador de IA François Chollet, revelou num blogue na segunda-feira que desenvolveu um novo teste altamente desafiante para avaliar a inteligência geral dos modelos avançados de IA.

Este novo teste, denominado ARC-AGI-2, revelou-se difícil para a maioria dos modelos.

De acordo com a tabela de classificação do Prémio Arc, os modelos de IA baseados no raciocínio, como o o1-pro da OpenAI e o R1 da DeepSeek, obtiveram uma pontuação entre 1% e 1,3% no ARC-AGI-2. Entretanto, os modelos de alto desempenho sem raciocínio, como o GPT-4.5, o Claude 3.7 Sonnet e o Gemini 2.0 Flash, obtiveram cerca de 1%.

ARC-AGI desafia a IA com tarefas de reconhecimento de padrões invisíveis

Os testes ARC-AGI apresentam desafios semelhantes a puzzles em que os modelos de IA têm de reconhecer padrões visuais a partir de grelhas de quadrados de cores diferentes e gerar a grelha de resposta correta. Estas tarefas foram especificamente concebidas para testar a capacidade de uma IA para se adaptar a novos problemas com que nunca se deparou antes.

A Fundação do Prémio Arc fez com que mais de 400 pessoas tentassem o ARC-AGI-2 para estabelecer uma base de referência humana. Em média, os grupos de participantes responderam corretamente a 60% das perguntas do teste, superando significativamente todos os modelos de IA testados.

Um exemplo de pergunta do Arc-AGI-2 (crédito: Prémio Arc).

Num post no X, François Chollet afirmou que o ARC-AGI-2 fornece uma avaliação mais precisa da inteligência de um modelo de IA do que o seu antecessor, o ARC-AGI-1. Os testes da Arc Prize Foundation foram concebidos para determinar se os sistemas de IA podem efetivamente aprender novas competências para além dos seus dados de formação.

De acordo com Chollet, o ARC-AGI-2 elimina a capacidade dos modelos de IA de se basearem na “força bruta” – utilizando um vasto poder de computação para resolver problemas – uma fraqueza significativa do ARC-AGI-1 que ele reconheceu anteriormente.

Para ultrapassar as limitações do primeiro teste, o ARC-AGI-2 introduz uma nova métrica fundamental: a eficiência. Também exige que os modelos analisem padrões em tempo real, em vez de se basearem na memorização.

“A inteligência não é apenas a resolução de problemas ou a obtenção de pontuações elevadas”, escreveu o cofundador da Arc Prize Foundation, Greg Kamradt, num blogue. “A eficiência com que estas capacidades são adquiridas e aplicadas é um fator crucial. A verdadeira questão não é apenas: “A IA pode desenvolver a capacidade de resolver uma tarefa?”, mas também: “A que custo e eficiência?””

Avanços e limitações: O modelo o3 da OpenAI supera o ARC-AGI-1, mas a um custo elevado

Durante quase cinco anos, o ARC-AGI-1 permaneceu imbatível até dezembro de 2024, quando o modelo de raciocínio avançado da OpenAI, o3, ultrapassou todos os outros sistemas de IA e igualou o desempenho humano no teste. No entanto, como já foi referido, estas melhorias tiveram um custo computacional elevado.

A primeira versão do modelo o3 da OpenAI a bater recordes no ARC-AGI-1-o3 (baixo), com uma pontuação de 75,7%, teve um desempenho significativamente pior no ARC-AGI-2, atingindo apenas 4% e utilizando uma potência de computação de 200 dólares por tarefa.

Comparação do desempenho do modelo Frontier AI no ARC-AGI-1 e no ARC-AGI-2 (crédito: Prémio Arc).

O lançamento do ARC-AGI-2 surge numa altura em que muitos intervenientes na indústria tecnológica defendem a criação de novos padrões de referência não saturados para acompanhar os avanços da IA. O cofundador da Hugging Face, Thomas Wolf, disse recentemente ao TechCrunch que o campo da IA carece de testes adequados para avaliar os principais aspectos da inteligência artificial geral, como a criatividade.

Para além de apresentar o novo parâmetro de referência, a Arc Prize Foundation anunciou o concurso Arc Prize 2025, que desafia os programadores a alcançar uma precisão de 85% no teste ARC-AGI-2, mantendo os custos computacionais em apenas 0,42 dólares por tarefa.

Leia o Artigo Original: TechCrunch

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Um Novo e Difícil Teste AGI Revela-se Demasiado Desafiante para a Maioria dos Modelos de IA