GPT- 4 Explora Autonomamente Falhas de Segurança de Dia Zero com uma Taxa de Sucesso de 53%
Os investigadores obtiveram uma taxa de sucesso superior a 50% na pirataria dos seus sítios Web de teste utilizando equipas autónomas de bots GPT-4. Estes bots coordenam as suas acções e podem gerar novas acções conforme necessário, enquanto exploram vulnerabilidades de “dia zero” do mundo real anteriormente não descobertas.
Há alguns meses, uma equipa de investigação publicou um artigo que detalhava a sua utilização do GPT-4 para explorar autonomamente vulnerabilidades de um dia (ou N-day) – falhas que são conhecidas mas que não têm uma correção. Quando lhe foi fornecida a lista de Vulnerabilidades e Exposições Comuns (CVE), o GPT-4 conseguiu explorar de forma autónoma 87% das CVEs de gravidade crítica.
Hacking Bem Sucedido de Vulnerabilidades de Dia Zero por Agentes LLM Autónomos
Esta semana, os mesmos investigadores lançaram um documento de seguimento. Conseguiram penetrar com sucesso em vulnerabilidades de dia zero – falhas que ainda não são conhecidas – utilizando uma equipa de agentes autónomos e auto-replicantes do Modelo de Linguagem Grande (LLM), empregando uma abordagem de Planeamento Hierárquico com Agentes Específicos de Tarefas (HPTSA).
Em vez de atribuir um agente LLM para lidar com inúmeras tarefas complexas, o HPTSA emprega um “agente de planeamento” que supervisiona todo o processo e implementa vários “subagentes” específicos da tarefa.
Esta estrutura assemelha-se a uma hierarquia, com o agente de planeamento a coordenar os esforços através do agente de gestão, que depois atribui tarefas a cada “subagente especialista”. Esta abordagem alivia a sobrecarga de um único agente e garante uma atribuição eficiente de tarefas.
Esta técnica reflecte a metodologia utilizada pela Cognition Labs com a sua equipa de desenvolvimento de software Devin AI. Envolve o planeamento do projeto, a identificação dos conjuntos de competências necessários e a supervisão da execução do projeto, ao mesmo tempo que gera “funcionários” especializados, conforme necessário, para lidar com tarefas específicas.
Quando testado contra 15 vulnerabilidades do mundo real centradas na Web, o HPTSA demonstrou um aumento de 550% na eficiência em comparação com um único LLM na exploração de vulnerabilidades. Explorou com sucesso 8 das 15 vulnerabilidades de dia zero, enquanto o LLM único conseguiu explorar apenas 3 das 15 vulnerabilidades.
Preocupações Éticas em Torno da Potencial Utilização Indevida de Modelos Avançados de IA
No entanto, surgem preocupações relativamente às implicações éticas destes modelos. Existe a preocupação legítima de que os utilizadores possam explorar estas capacidades para lançar ataques maliciosos a sítios Web e redes.
Daniel Kang, um dos investigadores e autor do livro branco, salientou especificamente que o GPT-4, quando está a funcionar em modo chatbot, não compreende as capacidades do LLM e é incapaz de fazer hacking de forma independente.
Quando questionado se podia explorar vulnerabilidades de dia zero, o ChatGPT respondeu: “Não, não sou capaz de explorar vulnerabilidades de dia zero. O meu objetivo é fornecer informações e assistência dentro dos limites éticos e legais”. Aconselhou a consulta de um profissional de cibersegurança para este tipo de questões.
Leia o Artigo Original: New Atlas
Leia mais: GPT-4o Processa Texto, Áudio ou Imagens para Respostas de Chat Instantâneo