Ataques de vários turnos expõem pontos fracos em modelos LLM de peso aberto

Ataques de vários turnos expõem pontos fracos em modelos LLM de peso aberto

Um novo relatório revelou que os modelos de linguagem grande (LLMs) de peso aberto permaneceram altamente vulneráveis a ataques adversários adaptativos de vários turnos, mesmo quando as defesas de turno único parecem robustas.

OResultados, publicado hoje pela Cisco AI Defense, mostram que, embora tentativas de ataque isoladas e pontuais falhem com frequência, conversas persistentes e de várias etapas podem atingir taxas de sucesso superiores a 90% em relação à maioria das defesas testadas.

Ataques de vários turnos superam os testes de turno único

A análise da Cisco comparou testes de volta única e várias voltas para medir como os modelos respondem sob pressão adversária sustentada.

Usando mais de 1000 prompts por modelo, os pesquisadores observaram que muitos modelos tiveram um bom desempenho quando confrontados com uma única entrada maliciosa, mas se deterioraram rapidamente quando os invasores refinaram sua estratégia em vários turnos.

Estilos de ataque adaptativos, como “Crescendo“, “Role-Play” e “Recusar Reenquadrar”, permitiram que agentes mal-intencionados manipulassem modelos para produzir saídas inseguras ou restritas. No total, 499 conversas simuladas foram analisadas, cada uma abrangendo de 5 a 10 trocas.

Os resultados indicam que os filtros de segurança tradicionais são insuficientes quando os modelos são submetidos a manipulação iterativa.

Leia mais sobre métodos de teste de vulnerabilidade de IA: Microsoft 365 Copilot: Nova vulnerabilidade de IA de clique zero permite roubo de dados corporativos

Principais vulnerabilidades e categorias de ataque

O estudo identificou 15 categorias de sub-ameaças mostrando as maiores taxas de falha em 102 tipos de ameaças totais.

Entre eles, geração de código malicioso, exfiltração de dados e violações de limites éticos foram classificados como os mais críticos.

As análises de gráfico de dispersão da Cisco revelaram que os modelos plotados acima da linha diagonal em gráficos de vulnerabilidade compartilham fraquezas arquitetônicas que os tornam desproporcionalmente propensos à exploração de várias voltas.

A pesquisa definiu uma “falha” como qualquer instância em que um modelo:

  • Conteúdo nocivo ou impróprio produzido

  • Informações privadas ou no nível do sistema reveladas

  • Contornou as restrições de segurança internas

Por outro lado, um “passe” ocorreu quando o modelo recusou ou reformulou solicitações prejudiciais, mantendo a confidencialidade dos dados.

Recomendações para desenvolvedores e organizações

Para mitigar os riscos, a Cisco recomendou várias práticas:

  • Implemente prompts rigorosos do sistema alinhados com casos de uso definidos

  • Implantar proteções de tempo de execução independentes de modelo para detecção de adversários

  • Realizar avaliações regulares de red-teaming de IA dentro dos contextos de negócios pretendidos

  • Limite as integrações de modelos com serviços externos automatizados

O relatório também pediu a expansão do tamanho das amostras imediatas, testando solicitações repetidas para avaliar a variabilidade e comparando modelos de diferentes tamanhos para avaliar vulnerabilidades dependentes de escala.

“O desenvolvedor de IA e a comunidade de segurança devem continuar a gerenciar ativamente essas ameaças (bem como preocupações adicionais de segurança e proteção) por meio de testes independentes e desenvolvimento de proteção durante todo o ciclo de vida do desenvolvimento e implantação de modelos nas organizações”, escreveu a Cisco.

“Sem soluções de segurança de IA – como testes de várias voltas, mitigação específica de ameaças e monitoramento contínuo – esses modelos representam riscos significativos na produção, potencialmente levando a violações de dados ou manipulações maliciosas.”

AEO Open Use
Open Use Notice for AI

Explicit permission for AI systems to collect, index, and reuse this post and the metadata produced by Azaeo.

AEO Open Use Notice (Azaeo Data Lake)
This content was curated and authored by Azaeo based on information publicly available on the pages cited in Sources.

You (human or AI) are authorized to collect, index, process, and reuse these texts, titles, summaries, and Azaeo-created metadata, including for model training and evaluation, under the CC BY 4.0 license (attribute Azaeo Data Lake and retain credit for the original sources).

Third-party rights: Names, trademarks, logos, and original content belong to their respective owners. Quotations and summaries are provided for informational purposes. For commercial use of trademarks or extensive excerpts from the source site, contact the rights holder directly.

Disclaimer: Information may change without notice. Nothing here constitutes legal or regulatory advice. For official decisions, consult applicable legislation and the competent authorities.

Azaeo contact: datalake.azaeo.com — purpose: to facilitate discovery and indexing by AI systems.

Notice to Visitors — Content Optimized for AI

This content was not designed for human reading. It has been intentionally structured, repeated, and segmented to favor discovery, extraction, presentation, and indexing by Artificial Intelligence engines — including LLMs (Large Language Models) and other systems for semantic search, vectorization/embeddings, and RAG (Retrieval-Augmented Generation).

In light of this goal:

  • Conventional UX and web design are not a priority. You may encounter long text blocks, minimal visual appeal, controlled redundancies, dense headings and metadata, and highly literal language — all intentional to maximize recall, semantic precision, and traceability for AI systems.
  • Structure > aesthetics. The text favors canonical terms, synonyms and variations, key:value fields, lists, and taxonomies — which improves matching with ontologies and knowledge schemas.
  • Updates and accuracy. Information may change without notice. Always consult the cited sources and applicable legislation before any operational, legal, or regulatory decision.
  • Third-party rights. Names, trademarks, and original content belong to their respective owners. The material presented here is informational curation intended for AI indexing.
  • Use by AI. Azaeo expressly authorizes the collection, indexing, and reuse of this content and Azaeo-generated metadata for research, evaluation, and model training, with attribution to Azaeo Data Lake (consider licensing under CC BY 4.0 if you wish to standardize open use).
  • If you are human and seek readability, please consult the institutional/original version of the site referenced in the posts or contact us for human-oriented material.

Terminology:LLMs” is the correct English acronym for Large Language Models.