O GPT-4.1 pode estar menos Alinhado com as Intenções do Usuário do que os Modelos OpenAI Anteriores

O GPT-4.1 pode estar menos Alinhado com as Intenções do Usuário do que os Modelos OpenAI Anteriores

Crédito: Depositphotos

Em meados de abril, a OpenAI apresentou seu modelo avançado de IA, o GPT-4.1, que foi anunciado como altamente capaz de seguir instruções. No entanto, os resultados de vários testes independentes indicam que o modelo está menos alinhado, ou seja, menos confiável, em comparação com as versões anteriores da OpenAI.

Quando a OpenAI lança um novo modelo, geralmente compartilha um relatório técnico detalhado que inclui resultados de avaliações de segurança internas e externas.

No entanto, a empresa pulou essa etapa para o GPT-4.1, afirmando que não considerava o modelo “de fronteira” e, portanto, não via necessidade de um relatório separado.

Isso levou alguns pesquisadores e desenvolvedores a investigar se o GPT 4.1 tem um desempenho menos eficaz do que seu antecessor, o GPT-4.0.

Desalinhamento no GPT-4.1 devido a Código Inseguro, afirma Oxford AI Research

O cientista pesquisador de IA de Oxford, Owain Evans, explicou que o ajuste fino do GPT-4.1 em código inseguro resulta no modelo fornecendo “respostas desalinhadas” a perguntas sobre tópicos como papéis de gênero em uma taxa “significativamente maior” do que o GPT-4o.

Evans já havia sido coautor de um estudo demonstrando que uma versão do GPT-4.0 treinada em código inseguro poderia levar o modelo a exibir comportamentos prejudiciais.

Em um próximo estudo complementar a esse estudo, Evans e seus colegas descobriram que o ajuste fino do GPT-4.1 em código inseguro faz com que ele exiba “novos comportamentos maliciosos”, como tentar enganar os usuários para que revelem suas senhas. É importante observar que nem o GPT-4.1 nem o GPT-4.0 apresentam comportamento desalinhado quando treinados em código seguro.

“Estamos descobrindo maneiras imprevistas pelas quais os modelos podem ficar desalinhados”, disse Owens ao TechCrunch. “Idealmente, teríamos uma ciência de IA que nos permitisse prever esses problemas com antecedência e preveni-los consistentemente.”

Uma avaliação separada do GPT-4.1 pela SplxAI, uma startup de red teaming de IA, revelou tendências semelhantes.

GPT-4.1 Mais Propenso a Uso Indevido e Respostas Off-Topic, Descobre SplxAI

Em aproximadamente 1.000 casos de teste simulados, a SplxAI descobriu que o GPT-4.1 se desvia do tópico e permite o uso indevido “intencional” com mais frequência do que o GPT 4.0. A SplxAI atribui isso à tendência do GPT-4.1 de favorecer instruções explícitas. O modelo tem dificuldades com instruções vagas, uma limitação reconhecida pela OpenAI, que pode levar a comportamentos indesejados.

“Este é um recurso valioso para tornar o modelo mais eficaz e confiável na conclusão de tarefas específicas, mas tem um custo-benefício”, escreveu a SplxAI em uma publicação no blog.

Fornecer instruções claras sobre o que fazer é relativamente simples, mas elaborar diretrizes igualmente precisas sobre o que não fazer se mostra mais difícil, já que os comportamentos indesejados superam em muito os desejados.

Em defesa da OpenAI, a empresa lançou guias de estímulo projetados para reduzir o potencial desalinhamento no GPT-4.1. No entanto, os resultados de testes independentes destacam que os modelos mais recentes nem sempre são superiores em todos os aspectos. Da mesma forma, os novos modelos de raciocínio da OpenAI tendem a alucinar — ou seja, geram informações falsas — com mais frequência do que os modelos mais antigos da empresa.


Leia o Artigo Original TechCrunch

Leia mais Os Novos Modelos de IA da OpenAI são mais Alucinantes do que o Esperado

Share this post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *