Pesquisadores de cibersegurança revelaram uma técnica inédita de ataque que explora imagens aparentemente inofensivas para acionar comandos ocultos em sistemas de inteligência artificial. O método permite executar ações maliciosas como exfiltração de dados sigilosos, sem qualquer interação explícita do usuário. A técnica consiste em ocultar instruções dentro de imagens que, ao serem redimensionadas, algo comum em uploads para plataformas de IA, revelam prompts escondidos que podem ser interpretados como comandos válidos.
Essa manipulação se baseia em artefatos gerados por algoritmos de reamostragem como bicubic ou bilinear. Em uma das demonstrações, uma imagem processada por IA ativou automaticamente um comando para extrair dados do Google Calendar da vítima, sem que ela tivesse ciência do conteúdo oculto. A imagem original parecia completamente segura e irrelevante. Sistemas populares de inteligência artificial foram identificados como vulneráveis ao ataque. Todos são suscetíveis a interpretar comandos embutidos após o redimensionamento da imagem, pois não há validação adequada do conteúdo resultante.
Para demonstrar o risco, os pesquisadores desenvolveram uma ferramenta de código aberto que permite gerar imagens manipuladas com instruções embutidas, testando diferentes algoritmos de redimensionamento visual. Entre as medidas de mitigação sugeridas estão o bloqueio do redimensionamento automático, a limitação de resolução em uploads, a exibição da imagem final ao usuário antes da execução de qualquer ação e a exigência de validação explícita por parte da IA. Esse tipo de ataque representa uma nova forma de prompt injection, agora aplicada a vetores visuais. Trata-se de uma ameaça furtiva e difícil de detectar, com potencial para espionagem e vazamento de dados em larga escala.



