CEO da Anthropic Pretende Tornar os Modelos de IA mais Transparentes até 2027

CEO da Anthropic Pretende Tornar os Modelos de IA mais Transparentes até 2027

Créditos da imagem: Benjamin Girette/Bloomberg/Getty Images

Na quinta-feira, o CEO da Anthropic, Dario Amodei, publicou um ensaio destacando o quão pouco se sabe sobre o funcionamento interno dos modelos de IA mais avançados da atualidade. Para lidar com isso, ele estabeleceu uma meta ousada para a Anthropic: até 2027, a empresa pretende detectar e solucionar de forma confiável a maioria dos problemas nos sistemas de IA.

Em seu ensaio, “A Urgência da Interpretabilidade”, Amodei admite que o caminho à frente não será fácil. Embora a Anthropic tenha feito progressos iniciais no rastreamento de como os modelos geram seus resultados, ele enfatiza que pesquisas muito mais aprofundadas são necessárias para realmente compreender esses sistemas cada vez mais complexos.

“Estou profundamente preocupado com a implantação desses modelos sem uma compreensão mais clara de como eles operam”, escreveu Amodei. “Eles serão fundamentais para nossa economia, tecnologia e segurança nacional, e tão autônomos que é simplesmente inaceitável que permaneçamos no escuro sobre suas tomadas de decisão.”

Anthropic lidera a Decodificação da tomada de Decisões em IA

A Anthropic está na vanguarda da interpretabilidade mecanicista — um campo focado em desvendar a “caixa preta” dos modelos de IA para entender o raciocínio por trás de suas decisões. Apesar dos rápidos avanços nas capacidades de IA, os pesquisadores ainda sabem relativamente pouco sobre como esses sistemas chegam às suas conclusões.

Por exemplo, a OpenAI introduziu recentemente novos modelos de raciocínio, o3 e o4-mini, que superam versões anteriores em algumas tarefas — mas também tendem a alucinar com mais frequência. A causa permanece obscura, mesmo para seus criadores.

Em seu ensaio, Dario Amodei aponta uma grande limitação dos sistemas de IA generativa atuais: quando uma IA resume algo como um relatório financeiro, não conseguimos explicar — em detalhes — por que ela escolhe palavras específicas ou comete erros ocasionais, mesmo quando geralmente é precisa.

Ele destaca um comentário do cofundador da Anthropic, Chris Olah, que afirmou que os modelos de IA são “mais desenvolvidos do que construídos”, o que significa que pesquisadores encontraram maneiras de melhorar o desempenho dos modelos sem compreender completamente por que essas melhorias funcionam.

Amodei alerta que abordar a inteligência artificial geral (IAG) — que ele descreve como “um país de gênios em um data center” — sem realmente compreender como esses modelos funcionam pode ser arriscado. Embora ele tenha estimado anteriormente que a IAG poderia chegar por volta de 2026 ou 2027, agora ele acredita que a compreensão desses sistemas pode levar muito mais tempo.

Amodei propõe “Varreduras Cerebrais” para IA para garantir Implantação mais segura

Olhando para o futuro, Amodei prevê a realização de testes diagnósticos aprofundados — como “varreduras cerebrais” ou “ressonâncias magnéticas” para IA — para descobrir uma série de problemas potenciais, como tendências à desonestidade ou comportamento de busca por poder. Ele estima que esse tipo de interpretabilidade pode levar de cinco a dez anos para ser alcançado, mas a considera essencial para a implantação segura de futuros modelos de IA.

A Anthropic já fez progressos nessa área. A empresa começou a mapear “circuitos” em seus modelos — caminhos que revelam como a IA processa informações. Um desses circuitos ajuda o modelo a entender a relação entre cidades e estados dos EUA. Embora apenas alguns circuitos tenham sido identificados, Amodei estima que possa haver milhões deles em modelos grandes.

A empresa também começou a investir em startups externas focadas em interpretabilidade, reforçando seu compromisso com essa pesquisa. Embora atualmente seja vista como parte da segurança da IA, Amodei acredita que entender como os modelos chegam a conclusões também pode se tornar uma vantagem comercial.

OpenAI e Google DeepMind

Em seu ensaio, Amodei instou grandes players como OpenAI e Google DeepMind a intensificarem seus esforços em pesquisa de interpretabilidade. Ele também pediu aos governos que adotem regulamentações “leves” que promovam a transparência — como exigir que as empresas divulguem suas práticas de segurança — e defendeu controles de exportação de chips avançados de IA para a China para evitar uma corrida armamentista global pela IA.

A Anthropic há muito se diferencia de seus concorrentes por priorizar a segurança da IA. Enquanto outras empresas de tecnologia resistiram ao projeto de lei de segurança de IA proposto pela Califórnia (SB 1047), a Anthropic ofereceu apoio e sugestões cautelosas, alinhando-se com seu apelo mais amplo por uma abordagem mais responsável em todo o setor para entender — e não apenas avançar — as capacidades de IA.


Leia o Artigo Original TechCrunch

Leia mais Dropbox Apresenta Novos Recursos para Dash, sua Ferramenta de Busca Baseada em IA

Share this post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *