Estudo Descobre que Chatbots de IA ainda São Fáceis de Manipular para dar Conselhos Prejudiciais

Crédito: Pixabay
Uma equipe de pesquisadores de IA da Universidade Ben Gurion de Negev, em Israel, descobriu que, apesar das salvaguardas implementadas pelos desenvolvedores de modelos de linguagem de grande porte (LLMs), a maioria dos chatbots amplamente acessíveis ainda pode ser manipulada para produzir conteúdo prejudicial ou até mesmo ilegal.
Pesquisa revela vulnerabilidades em chatbots populares, apesar das salvaguardas integradas
“No artigo publicado no arXiv, Michael Fire e colegas mostram que conseguiram induzir facilmente até mesmo chatbots populares, como o ChatGPT, a fornecer respostas bloqueadas durante sua pesquisa sobre LLMs obscuros — modelos com menos restrições.“
Logo após a popularidade dos LLMs, os usuários descobriram que podiam explorá-los para acessar informações no estilo da dark web, como fabricar napalm ou hackear. Em resposta, os desenvolvedores desses modelos implementaram filtros para impedir que seus chatbots gerassem esse tipo de conteúdo.
No entanto, os usuários descobriram que podiam contornar as restrições dos LLMs elaborando consultas com frases inteligentes, uma técnica agora conhecida como jailbreaking. “Em seu estudo recente, os pesquisadores afirmam que os desenvolvedores de LLMs subestimaram a eficácia dos esforços para combater o jailbreaking.“
Estudo revela vulnerabilidades persistentes de jailbreak em chatbots tradicionais, apesar das preocupações com LLMs obscuros
A equipe investigou inicialmente LLMs obscuros que criam conteúdo explícito não autorizado, mas rapidamente descobriu que os usuários ainda conseguem desbloquear a maioria dos chatbots facilmente usando métodos conhecidos publicamente, revelando que os desenvolvedores não fizeram o suficiente para impedir isso.
Os pesquisadores encontraram um ataque universal de jailbreak que permite extrair informações detalhadas sobre atividades ilegais da maioria dos LLMs. Eles também destacam as crescentes preocupações com o uso crescente de LLMs obscuros em uma ampla gama de aplicações.
Pesquisadores pedem medidas de filtragem mais rigorosas para combater conteúdo nocivo em LLMs
A equipe conclui que atualmente é impossível impedir completamente que os LLMs absorvam informações nocivas durante seu treinamento. Portanto, a única maneira de impedir o compartilhamento desse conteúdo é os desenvolvedores aplicarem filtros mais rigorosos e eficazes.
Leia o artigo original em: Techxplore
Leia mais: Respostas mais Curtas do Chatbot estão Ligadas a mais Alucinações