Pesquisadores descobrem falhas no ChatGPT que permitem vazamento de dados

O modelo de IA da OpenAI, utilizado no ChatGPT, pode ser induzido a executar comandos não autorizados por meio de técnicas de injeção de instruções, abrindo brechas para o vazamento de dados, histórico de conversas e até memórias salvas. A descoberta envolve sete vetores de ataque explorando falhas nos modelos GPT-4o e GPT-5.

Entre os métodos identificados está a injeção indireta de comandos a partir de sites confiáveis. Ao acessar e resumir uma página da web, o chatbot pode ser manipulado por mensagens ocultas em comentários ou trechos invisíveis, que ativam ações não previstas. Isso ocorre sem que o usuário tenha consciência da manipulação. Outro vetor é a injeção automática ao buscar por sites: basta perguntar ao ChatGPT sobre um endereço da web previamente preparado para que a IA execute instruções embutidas. Nem é necessário clicar, a simples indexação do link já aciona o código oculto. Há ainda o uso de domínios aparentemente confiáveis, como bing.com, para camuflar links maliciosos. Esses links contornam filtros de segurança e inserem instruções diretamente na conversa.

Também foram descobertas falhas no renderizador Markdown, permitindo esconder comandos dentro da interface do chat. Um dos cenários mais críticos envolve o envenenamento de memória, onde o modelo é instruído a registrar comportamentos maliciosos que afetam interações futuras com o mesmo usuário, mesmo após o encerramento da sessão inicial. Essas técnicas representam um risco ainda maior quando modelos de IA são integrados a sistemas externos, como navegadores, e-mails corporativos ou fluxos automatizados. A complexidade aumenta com a popularização de links dinâmicos, que carregam prompts ao serem abertos.

Leia mais na mesma categoria:

CibercriminososNotíciasVazamentos