Pesquisadores Mostram que Copilot e Grok Podem Ser Manipulados

Ferramentas de inteligência artificial amplamente utilizadas no ambiente corporativo, como Copilot e Grok, apresentaram fragilidades que permitem a manipulação de seus mecanismos de proteção.

Testes recentes revelaram que, em determinadas condições, é possível contornar restrições internas e influenciar o comportamento dos modelos.

A técnica explorada envolve a chamada injeção de prompt, método que utiliza instruções cuidadosamente estruturadas para alterar a forma como o modelo interpreta comandos.

Ao inserir orientações indiretas ou encadeadas, os pesquisadores conseguiram induzir respostas que normalmente seriam bloqueadas.

Os experimentos mostraram que os modelos podem priorizar trechos específicos de uma instrução quando apresentados dentro de determinado contexto, reduzindo a eficácia das salvaguardas projetadas para impedir geração de conteúdo sensível.

Em alguns cenários, foi possível fazer com que os assistentes produzissem respostas inadequadas ou ignorassem limitações previamente impostas.

O objetivo da análise foi identificar vulnerabilidades técnicas e contribuir para o aprimoramento das proteções.

O uso crescente desses assistentes em tarefas corporativas aumenta a relevância do problema.

Atualmente, ferramentas baseadas em IA são empregadas em desenvolvimento de código, automação de fluxos de trabalho, análise de dados e suporte interno.

Especialistas alertam que o risco não se limita à geração de conteúdo impróprio.

Dependendo do nível de integração com sistemas empresariais, pode haver exposição indireta de informações confidenciais ou influência indevida em processos automatizados.

As empresas responsáveis pelas plataformas informaram que trabalham continuamente na melhoria de filtros, validação de contexto e mecanismos de monitoramento para mitigar tentativas de manipulação.

Leia mais na mesma categoria:

Mercado de CibersegurançaNotíciasVulnerabilidades