Estudo Descobre que Chatbots de IA ainda São Fáceis de Manipular para dar Conselhos Prejudiciais

By Valeriano Ndeyi Tech, Technology-Enhanced Learning Chatbots, Estudo, IA Comentários desativados

Crédito: Pixabay

Uma equipe de pesquisadores de IA da Universidade Ben Gurion de Negev, em Israel, descobriu que, apesar das salvaguardas implementadas pelos desenvolvedores de modelos de linguagem de grande porte (LLMs), a maioria dos chatbots amplamente acessíveis ainda pode ser manipulada para produzir conteúdo prejudicial ou até mesmo ilegal.

Pesquisa revela vulnerabilidades em chatbots populares, apesar das salvaguardas integradas

“No artigo publicado no arXiv, Michael Fire e colegas mostram que conseguiram induzir facilmente até mesmo chatbots populares, como o ChatGPT, a fornecer respostas bloqueadas durante sua pesquisa sobre LLMs obscuros — modelos com menos restrições.“

Logo após a popularidade dos LLMs, os usuários descobriram que podiam explorá-los para acessar informações no estilo da dark web, como fabricar napalm ou hackear. Em resposta, os desenvolvedores desses modelos implementaram filtros para impedir que seus chatbots gerassem esse tipo de conteúdo.

No entanto, os usuários descobriram que podiam contornar as restrições dos LLMs elaborando consultas com frases inteligentes, uma técnica agora conhecida como jailbreaking. “Em seu estudo recente, os pesquisadores afirmam que os desenvolvedores de LLMs subestimaram a eficácia dos esforços para combater o jailbreaking.“

Estudo revela vulnerabilidades persistentes de jailbreak em chatbots tradicionais, apesar das preocupações com LLMs obscuros

A equipe investigou inicialmente LLMs obscuros que criam conteúdo explícito não autorizado, mas rapidamente descobriu que os usuários ainda conseguem desbloquear a maioria dos chatbots facilmente usando métodos conhecidos publicamente, revelando que os desenvolvedores não fizeram o suficiente para impedir isso.

Os pesquisadores encontraram um ataque universal de jailbreak que permite extrair informações detalhadas sobre atividades ilegais da maioria dos LLMs. Eles também destacam as crescentes preocupações com o uso crescente de LLMs obscuros em uma ampla gama de aplicações.

Pesquisadores pedem medidas de filtragem mais rigorosas para combater conteúdo nocivo em LLMs

A equipe conclui que atualmente é impossível impedir completamente que os LLMs absorvam informações nocivas durante seu treinamento. Portanto, a única maneira de impedir o compartilhamento desse conteúdo é os desenvolvedores aplicarem filtros mais rigorosos e eficazes.

Leia o artigo original em: Techxplore

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Estudo Descobre que Chatbots de IA ainda São Fáceis de Manipular para dar Conselhos Prejudiciais