Pesquisadores de segurança cibernética alertam para uma nova técnica de jailbreak chamada Echo Chamber, que consegue burlar proteções de modelos de linguagem como os da OpenAI e do Google, induzindo-os a gerar conteúdos prejudiciais. Ao contrário dos métodos tradicionais, que utilizam frases adversárias ou obfuscação de caracteres, o Echo Chamber manipula os modelos por meio de referências indiretas, inferências em múltiplas etapas e direcionamento semântico.
Essa abordagem é sutil, mas poderosa, pois ela influencia gradualmente o estado interno do modelo, fazendo com que ele produza respostas que violam políticas de segurança. Segundo Ahmad Alobaid, da NeuralTrust, a técnica explora um tipo de “envenenamento de contexto”, criando um ciclo de feedback no qual os próprios resultados do modelo são usados para reforçar mensagens nocivas subsequentes. Em testes controlados, os ataques com Echo Chamber apresentaram taxa de sucesso superior a 90% em temas como discurso de ódio, violência, sexismo e pornografia. Em categorias como desinformação e automutilação, a taxa se aproximou de 80%.
Essa vulnerabilidade destaca um ponto cego crítico na segurança de LLMs. À medida que esses modelos se tornam mais sofisticados, também se tornam mais suscetíveis à exploração indireta. Técnicas como “Crescendo” e “many-shot jailbreaks” reforçam essa preocupação. O alerta vem junto com outro caso: a Cato Networks demonstrou um ataque PoC contra o protocolo de contexto da Atlassian (MCP), usado no Jira Service Management. Nele, um engenheiro de suporte, sem saber, executa instruções maliciosas contidas em um ticket enviado por um agente externo. O ataque foi chamado de “Living off AI”, por explorar sistemas de IA sem a necessidade de acesso direto ou autenticação.



