Os Modelos de IA mais recentes da OpenAI têm uma Nova Proteção para Evitar Riscos Biológicos

Créditos da imagem:Jaque Silva/NurPhoto/Getty Image
A OpenAI anunciou a implementação de um novo sistema de monitoramento para seus modelos avançados de raciocínio, o3 e o4-mini, projetados para detectar e bloquear alertas relacionados a ameaças biológicas e químicas. De acordo com o relatório de segurança da empresa, esse mecanismo visa impedir que os modelos forneçam instruções que possam ser usadas para ataques prejudiciais.
Capacidades Aprimoradas Levam a Riscos Maiores
De acordo com a OpenAI, os modelos o3 e o4-mini representam um avanço significativo em termos de capacidade em comparação com as versões anteriores, o que, por sua vez, aumenta os riscos de uso indevido por agentes maliciosos. Testes internos mostram que o modelo o3, em particular, é mais eficaz em responder a perguntas sobre a criação de certos tipos de ameaças biológicas, o que levou a empresa a desenvolver este novo sistema de monitoramento focado em segurança, chamado de “monitor de raciocínio orientado por políticas”.
Este sistema, especificamente treinado para interpretar as diretrizes de conteúdo da OpenAI, é executado sobre os modelos o3 e o4-mini. Ele foi projetado para identificar comandos relacionados a riscos biológicos ou químicos e instruir os modelos a se recusarem a fornecer respostas nesses casos.
Para estabelecer uma base de dados sólida, a OpenAI fez com que membros da equipe vermelha passassem cerca de 1.000 horas sinalizando conversas perigosas relacionadas a riscos biológicos nos modelos. Em testes que simularam o funcionamento do monitor de segurança, os modelos se recusaram a responder a prompts de risco em 98,7% das vezes.
No entanto, a empresa reconhece que os testes não levaram em conta os usuários que tentam novos prompts após o sistema bloqueá-los, razão pela qual continuará a contar com o monitoramento humano como parte de sua estratégia de segurança.
Modelos da OpenAI se mostram eficazes na prevenção de riscos biológicos
Embora a OpenAI afirme que o3 e o4-mini ainda não atingiram o limite de “alto risco” para riscos biológicos, eles se mostraram mais eficazes do que versões anteriores, como o1 e GPT-4, em responder a perguntas sobre armas biológicas.

Gráfico do cartão de sistema o3 e o4-mini (captura de tela: OpenAI)
Preocupações com o uso malicioso de tecnologias generativas levaram a OpenAI a fortalecer sua estrutura de segurança, conhecida como Estrutura de Preparação. Um exemplo disso é o uso pela OpenAI de um monitor semelhante no modelo GPT-4o, que impede a geração de material de abuso sexual infantil (CSAM).
Apesar dos avanços, alguns especialistas questionam o compromisso da OpenAI com a segurança. A parceira da empresa, Metr, por exemplo, relatou ter pouco tempo para avaliar o modelo o3 em testes de comportamento enganoso. Além disso, a OpenAI optou por não divulgar um relatório de segurança para o modelo GPT-4.1, lançado recentemente, o que gerou ainda mais críticas quanto à transparência da organização.
Leia o Artigo Original Tchcrunch
Leia mais Máquinas de Robótica Cósmica podem Acelerar a Instalação de Painéis Solares