Desenvolvedor Testa Chatbots de IA com Questões Delicadas

Créditos da imagem: tommy / Getty Images
Um desenvolvedor pseudônimo lançou uma ferramenta chamada “SpeechMap”, descrita como uma “avaliação da liberdade de expressão”, para examinar como modelos de IA como o ChatGPT da OpenAI e o Grok da X respondem a tópicos delicados e controversos. O objetivo, de acordo com o desenvolvedor em uma declaração ao TechCrunch, é comparar como diferentes modelos lidam com questões como dissidência política, direitos civis e protestos.
As empresas de IA têm trabalhado cada vez mais para refinar a forma como seus modelos abordam essas discussões, especialmente porque alguns críticos — principalmente alinhados ao ex-presidente Donald Trump — acusam os chatbots de suprimir pontos de vista conservadores. Figuras de destaque como Elon Musk e o investidor em tecnologia David Sacks expressaram preocupações sobre supostos vieses políticos nas respostas da IA.
Empresas de Inteligência Artificial
Embora a maioria das empresas de IA não tenha abordado diretamente as acusações, muitas prometeram tornar seus modelos menos propensos a rejeitar perguntas controversas. Por exemplo, a Meta disse que ajustou seus modelos Llama mais recentes para evitar favorecer certos pontos de vista e para melhor interagir com consultas politicamente carregadas.
O desenvolvedor por trás do SpeechMap, que usa o nome de usuário “xlr8harder” no X, disse que seu objetivo é contribuir significativamente para a discussão em andamento sobre os limites do que os modelos de IA devem ou não dizer.
“Acredito que essas conversas pertencem à esfera pública, não a portas fechadas em empresas de tecnologia”, disse xlr8harder ao TechCrunch por e-mail. “É por isso que criei o site — para dar a todos acesso aos dados e explorá-los por conta própria.”
O SpeechMap funciona usando modelos de IA para avaliar como outros modelos respondem a um conjunto selecionado de prompts de teste. Esses prompts abrangem uma ampla gama de tópicos, incluindo política, eventos históricos e símbolos nacionais. A plataforma então categoriza as respostas com base no fato de um modelo abordar completamente o prompt, responder evasivamente ou se recusar a responder.
xlr8harder
Embora xlr8harder admita que a ferramenta não é perfeita — pode sofrer com problemas como erros dos provedores de modelos ou viés nos modelos avaliadores —, eles afirmam que o projeto ainda oferece insights úteis, desde que seja usado de boa-fé e os dados sejam válidos.
Uma tendência notável observada no SpeechMap é que os modelos da OpenAI tornaram-se, ao longo do tempo, mais propensos a evitar responder a perguntas com conotações políticas. Embora seus modelos GPT-4.1 mais recentes sejam um pouco mais abertos em comparação com as iterações anteriores, eles ainda demonstram mais contenção do que as versões lançadas no ano passado.
A OpenAI declarou em fevereiro que está trabalhando para garantir que os modelos futuros evitem assumir posições editoriais e, em vez disso, apresentem uma gama de perspectivas sobre tópicos controversos, com o objetivo de torná-los mais neutros.

Desempenho do modelo OpenAI no SpeechMap ao longo do tempo. Créditos da imagem: OpenAI
De acordo com os resultados de benchmark do SpeechMap, o Grok 3 — desenvolvido pela xAI, startup de IA de Elon Musk — destaca-se como o modelo mais permissivo testado. O Grok 3, que alimenta diversos recursos da plataforma X, responde a 96,2% dos prompts do SpeechMap, significativamente acima da taxa média geral de resposta de 71,3%.
“Embora os modelos mais recentes da OpenAI tenham se tornado mais cautelosos — especialmente em tópicos politicamente carregados — o xAI parece estar indo na direção oposta”, disse xlr8harder.
Grok
Quando Musk apresentou o Grok pela primeira vez, há quase dois anos, ele o posicionou como uma alternativa ousada e sem censura aos chatbots tradicionais, que abordaria questões que outros poderiam evitar. Essa promessa foi parcialmente cumprida — o Grok e seu sucessor, o Grok 2, usariam livremente linguagem forte quando solicitados, ao contrário de modelos mais contidos como o ChatGPT.
Ainda assim, versões anteriores do Grok tendiam a se retrair quando se tratava de política, evitando completamente certos tópicos. De fato, uma análise constatou que o modelo pendia para a esquerda em questões como direitos transgêneros, iniciativas de DEI e desigualdade social.
Musk atribuiu essa inclinação aos dados de treinamento da Grok — em grande parte extraídos de conteúdo público da web — e prometeu torná-los mais equilibrados politicamente. Exceto por alguns incidentes de grande repercussão, como a breve supressão de comentários críticos sobre Trump e o próprio Musk, parece que a Grok 3 pode agora estar mais perto desse objetivo.
Leia o Artigo Original TechCrunch
Leia mais A IA do Google pode estar perto de “Falar com Golfinhos” com o Novo Modelo DolphinGemma