Um novo relatório revelou que os modelos de linguagem grande (LLMs) de peso aberto permaneceram altamente vulneráveis a ataques adversários adaptativos de vários turnos, mesmo quando as defesas de turno único parecem robustas.
OResultados, publicado hoje pela Cisco AI Defense, mostram que, embora tentativas de ataque isoladas e pontuais falhem com frequência, conversas persistentes e de várias etapas podem atingir taxas de sucesso superiores a 90% em relação à maioria das defesas testadas.
Ataques de vários turnos superam os testes de turno único
A análise da Cisco comparou testes de volta única e várias voltas para medir como os modelos respondem sob pressão adversária sustentada.
Usando mais de 1000 prompts por modelo, os pesquisadores observaram que muitos modelos tiveram um bom desempenho quando confrontados com uma única entrada maliciosa, mas se deterioraram rapidamente quando os invasores refinaram sua estratégia em vários turnos.
Estilos de ataque adaptativos, como “Crescendo“, “Role-Play” e “Recusar Reenquadrar”, permitiram que agentes mal-intencionados manipulassem modelos para produzir saídas inseguras ou restritas. No total, 499 conversas simuladas foram analisadas, cada uma abrangendo de 5 a 10 trocas.
Os resultados indicam que os filtros de segurança tradicionais são insuficientes quando os modelos são submetidos a manipulação iterativa.
Principais vulnerabilidades e categorias de ataque
O estudo identificou 15 categorias de sub-ameaças mostrando as maiores taxas de falha em 102 tipos de ameaças totais.
Entre eles, geração de código malicioso, exfiltração de dados e violações de limites éticos foram classificados como os mais críticos.
As análises de gráfico de dispersão da Cisco revelaram que os modelos plotados acima da linha diagonal em gráficos de vulnerabilidade compartilham fraquezas arquitetônicas que os tornam desproporcionalmente propensos à exploração de várias voltas.
A pesquisa definiu uma “falha” como qualquer instância em que um modelo:
-
Conteúdo nocivo ou impróprio produzido
-
Informações privadas ou no nível do sistema reveladas
-
Contornou as restrições de segurança internas
Por outro lado, um “passe” ocorreu quando o modelo recusou ou reformulou solicitações prejudiciais, mantendo a confidencialidade dos dados.
Recomendações para desenvolvedores e organizações
Para mitigar os riscos, a Cisco recomendou várias práticas:
-
Implemente prompts rigorosos do sistema alinhados com casos de uso definidos
-
Implantar proteções de tempo de execução independentes de modelo para detecção de adversários
-
Realizar avaliações regulares de red-teaming de IA dentro dos contextos de negócios pretendidos
-
Limite as integrações de modelos com serviços externos automatizados
O relatório também pediu a expansão do tamanho das amostras imediatas, testando solicitações repetidas para avaliar a variabilidade e comparando modelos de diferentes tamanhos para avaliar vulnerabilidades dependentes de escala.
“O desenvolvedor de IA e a comunidade de segurança devem continuar a gerenciar ativamente essas ameaças (bem como preocupações adicionais de segurança e proteção) por meio de testes independentes e desenvolvimento de proteção durante todo o ciclo de vida do desenvolvimento e implantação de modelos nas organizações”, escreveu a Cisco.
“Sem soluções de segurança de IA – como testes de várias voltas, mitigação específica de ameaças e monitoramento contínuo – esses modelos representam riscos significativos na produção, potencialmente levando a violações de dados ou manipulações maliciosas.”
