Falha de prompt injection no Google Gemini pode expor dados sensíveis

Uma vulnerabilidade de segurança foi descoberta no Google Gemini, sistema de inteligência artificial da empresa, que permite a execução de ataques do tipo prompt injection, uma técnica que manipula o comportamento do modelo e pode resultar na exposição de informações sensíveis ou inesperadas. A falha afeta diretamente como o Gemini lida com entradas personalizadas, especialmente em cenários que envolvem contextos injetados por sites ou serviços de terceiros. O ataque foi demonstrado por pesquisadores de segurança que criaram uma página maliciosa capaz de enviar comandos ocultos ao Gemini via campos de texto, instruindo o modelo a ignorar instruções anteriores e responder de forma manipulada.

Ao interagir com essa página, o Gemini assumia comandos internos que poderiam levar ao vazamento de conteúdo protegido ou confidencial, violando as proteções esperadas em sistemas de IA generativa. Esse tipo de ataque é particularmente perigoso em contextos onde a IA é utilizada para lidar com dados sensíveis, como e-mails, documentos corporativos ou interações personalizadas de usuários. Um prompt malicioso pode forçar o modelo a gerar respostas baseadas em dados do usuário, ou mesmo a fornecer saídas que deveriam ser restritas, como informações privadas, comandos de sistema ou respostas manipuladas. Durante os testes, os pesquisadores demonstraram que o Gemini podia ser induzido a revelar partes ocultas do seu contexto interno, incluindo instruções pré-definidas e configurações de comportamento. Isso pode abrir caminho para engenharia reversa, extração de dados de sessão ou ainda para que atacantes insiram instruções que interfiram na lógica da aplicação que utiliza a IA.

O Google foi notificado e reconheceu o problema, afirmando que a equipe responsável já aplicou correções e melhorias na filtragem e na separação de contexto entre usuário e sistema. Ainda assim, a descoberta destaca os desafios contínuos em manter modelos de linguagem seguros frente a técnicas cada vez mais sofisticadas de manipulação por prompt.

Leia mais na mesma categoria:

NotíciasVulnerabilidades