Os Modelos de IA mais recentes da OpenAI têm uma Nova Proteção para Evitar Riscos Biológicos

Os Modelos de IA mais recentes da OpenAI têm uma Nova Proteção para Evitar Riscos Biológicos

Créditos da imagem:Jaque Silva/NurPhoto/Getty Image

A OpenAI anunciou a implementação de um novo sistema de monitoramento para seus modelos avançados de raciocínio, o3 e o4-mini, projetados para detectar e bloquear alertas relacionados a ameaças biológicas e químicas. De acordo com o relatório de segurança da empresa, esse mecanismo visa impedir que os modelos forneçam instruções que possam ser usadas para ataques prejudiciais.

Capacidades Aprimoradas Levam a Riscos Maiores

De acordo com a OpenAI, os modelos o3 e o4-mini representam um avanço significativo em termos de capacidade em comparação com as versões anteriores, o que, por sua vez, aumenta os riscos de uso indevido por agentes maliciosos. Testes internos mostram que o modelo o3, em particular, é mais eficaz em responder a perguntas sobre a criação de certos tipos de ameaças biológicas, o que levou a empresa a desenvolver este novo sistema de monitoramento focado em segurança, chamado de “monitor de raciocínio orientado por políticas”.

Este sistema, especificamente treinado para interpretar as diretrizes de conteúdo da OpenAI, é executado sobre os modelos o3 e o4-mini. Ele foi projetado para identificar comandos relacionados a riscos biológicos ou químicos e instruir os modelos a se recusarem a fornecer respostas nesses casos.

Para estabelecer uma base de dados sólida, a OpenAI fez com que membros da equipe vermelha passassem cerca de 1.000 horas sinalizando conversas perigosas relacionadas a riscos biológicos nos modelos. Em testes que simularam o funcionamento do monitor de segurança, os modelos se recusaram a responder a prompts de risco em 98,7% das vezes.

No entanto, a empresa reconhece que os testes não levaram em conta os usuários que tentam novos prompts após o sistema bloqueá-los, razão pela qual continuará a contar com o monitoramento humano como parte de sua estratégia de segurança.

Modelos da OpenAI se mostram eficazes na prevenção de riscos biológicos

Embora a OpenAI afirme que o3 e o4-mini ainda não atingiram o limite de “alto risco” para riscos biológicos, eles se mostraram mais eficazes do que versões anteriores, como o1 e GPT-4, em responder a perguntas sobre armas biológicas.

Gráfico do cartão de sistema o3 e o4-mini (captura de tela: OpenAI)

Preocupações com o uso malicioso de tecnologias generativas levaram a OpenAI a fortalecer sua estrutura de segurança, conhecida como Estrutura de Preparação. Um exemplo disso é o uso pela OpenAI de um monitor semelhante no modelo GPT-4o, que impede a geração de material de abuso sexual infantil (CSAM).

Apesar dos avanços, alguns especialistas questionam o compromisso da OpenAI com a segurança. A parceira da empresa, Metr, por exemplo, relatou ter pouco tempo para avaliar o modelo o3 em testes de comportamento enganoso. Além disso, a OpenAI optou por não divulgar um relatório de segurança para o modelo GPT-4.1, lançado recentemente, o que gerou ainda mais críticas quanto à transparência da organização.


Leia o Artigo Original Tchcrunch

Leia mais Máquinas de Robótica Cósmica podem Acelerar a Instalação de Painéis Solares

Share this post