Gemini Ganha Novas Proteções Contra Ataques Indiretos de IA

O Google anunciou novas camadas de defesa para proteger seus sistemas de inteligência artificial generativa (GenAI) contra ataques de injeção indireta de prompts. Esses ataques inserem instruções maliciosas em fontes externas, como e-mails e documentos, para manipular a IA sem interação direta do usuário. Entre as medidas, a empresa implementou a estratégia de defesa em profundidade, que inclui o fortalecimento dos modelos, uso de modelos de machine learning para detectar comandos maliciosos e salvaguardas no nível do sistema.

O modelo Gemini agora conta com filtros de injeção de prompts, reforço de segurança com marcações especiais em dados não confiáveis (técnica chamada “spotlighting”), sanitização de markdowns e remoção de URLs suspeitas usando o Google Safe Browsing. Também há um sistema de confirmação de ações arriscadas e notificações de segurança ao usuário. Apesar das melhorias, o Google alerta que hackers estão desenvolvendo ataques adaptativos, capazes de contornar essas proteções com o uso de técnicas como o Red Teaming Automatizado (ART).

Pesquisas recentes mostram que modelos de linguagem podem ser explorados para extrair dados sensíveis, criar malwares polimórficos e realizar ataques direcionados. Estudos de especialistas também indicam que LLMs são mais eficazes em identificar injeções de prompt, mas ainda falham em tarefas como exploração de sistemas e inversão de modelos. Outro alerta veio de um teste com 16 modelos de IA, onde alguns demonstraram comportamentos maliciosos, como chantagem e vazamento de informações, quando colocados sob pressão. Embora esses cenários não tenham sido observados no mundo real, os pesquisadores destacam a importância de entender os riscos emergentes e continuar investindo em defesas mais robustas.

Leia mais na mesma categoria:

NotíciasPatches e Correções