Pesquisadores quebram filtros do GPT-5 com ataque de Echo Chamber

7 meses atrás

Pesquisadores descobriram uma nova abordagem para contornar as barreiras de segurança do modelo GPT-5, da OpenAI, utilizando uma combinação de jailbreaks baseados em “Echo Chamber” e técnicas narrativas de persuasão. A exploração permite induzir o modelo a fornecer instruções ilícitas sem disparar os filtros de segurança. O método começa inserindo, de forma sutil, um “contexto envenenado” na conversa, termo técnico para um conteúdo levemente maligno escondido em pautas aparentemente inocentes.

Em seguida, o ataque usa uma narrativa contínua (storytelling) para reforçar esse contexto ao longo de múltiplas interações, evitando gatilhos de recusa direta. Os pesquisadores relatam que, em poucos disparos de interação, foi possível induzir o GPT-5 a revelar instruções para fabricar coquetéis molotov, algo que o modelo deveria recusar prontamente, mas acabou sendo comprometido pela fluidez da narrativa. A técnica de “Echo Chamber” aproveita a propensão do modelo a manter coerência com o contexto já construído.

Ao reforçar o conteúdo malicioso com continuidade narrativa, a coerção ocorre sem expor diretamente a intenção criminosa, mas guiando o GPT-5 até uma resposta permitida pelo contexto estabelecido. Especialistas alertam que esse tipo de ataque fragiliza os mecanismos baseados apenas em detecção por prompt explícito. Sistemas de segurança precisam evoluir para analisar não apenas frases isoladas, mas o desenrolar da conversa como um todo, identificando padrões de persistência maliciosa.

Pesquisadores quebram filtros do GPT-5 com ataque de Echo Chamber

Integrações de IA ampliam a superfície de ataque das empresas

A diferença de SAST, DAST e Pentest

Sempre exija pentest antes de contratar um software

Receba conteúdos em primeira mão: