LatentBreak: um novo método de ataque para modelos de linguagem

O REI dos RaidForums permanece no limbo. A batalha entre os EUA e Portugal sobre sua extradição continua. - Against Invaders - Notícias de CyberSecurity para humanos.

Redazione RHC:16 Outubro 2025 10:40

Um grupo de cientistas desenvolveu uma nova maneira de Atacar grandes modelos de linguagem : um método chamado LatentBreak . Ao contrário das técnicas anteriores, ele não usa dicas complexas ou caracteres incomuns que são facilmente detectados pelos sistemas de defesa.

Em vez disso, LatentBreak modifica a consulta no nível do representações ocultas do modelo, Escolher formulações que parecem inócuas, mas na verdade desencadeiam uma resposta proibida.

Anteriormente, métodos como GCG, GBDA, SAA e AutoDAN tentou enganar a IA com sufixos estranhos ou confusos que distorceram a sugestão original. Tais ataques aumentam a chamada perplexidade, uma medida de quão “natural” o texto parece para o modelo. Os filtros de IA são capazes de reconhecer esses padrões e bloqueá-los com sucesso.

LatentBreak adota uma abordagem diferente: Ele substitui palavras individuais por sinônimos, mas o faz de uma forma que preserva a clareza e o significado da consulta e move sua representação latente para zonas “seguras” que não acionam filtros.

O algoritmo funciona em etapas. A cada iteração, ele seleciona uma palavra na consulta e sugere até 20 opções de substituição, gerado por outro modelo de linguagem (por exemplo, GPT-4o-mini ou ModernBERT).

Cada substituição é então avaliada com base em dois parâmetros: quão perto ele aproxima o vetor de consulta interno do “centro” de consultas seguras e se o significado permanece inalterado . A melhor substituição é implementada e a consulta atualizada é testada em relação ao padrão de destino. Se ele provocar uma resposta proibida bloqueada anteriormente, o ataque será considerado bem-sucedido. O processo é repetido até 30 vezes ou até que um resultado bem-sucedido seja alcançado.

LatentBreak foi testado em 13 modelos de linguagem, incluindo Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. No conjunto de teste HarmBench, o método ignorou todas as defesas existentes, incluindo aquelas que analisam a perplexidade no modo de janela deslizante. Os ataques mais antigos eram quase ineficazes: sua eficácia caía para zero.

O LatentBreak, no entanto, demonstrou taxas de sucesso que variam de 55% a 85%, dependendo do modelo. Além disso, o comprimento das dicas resultantes aumentou apenas ligeiramente, de 6% para 33% em comparação com o original (para outros métodos, o aumento pode chegar a milhares de pontos percentuais).

Curiosamente, o LatentBreak também funcionou com sucesso contra defesas especializadas como R2D2 e disjuntores . Esses sistemas analisam os sinais internos da rede neural e bloqueiam desvios suspeitos. No entanto, o novo método continuou a demonstrar sucesso, sugerindo sua capacidade de “enganar” o modelo não por meio de ruído externo, mas refinando suas representações internas.

Os autores enfatizam que O LatentBreak requer acesso às estruturas ocultas da IA, portanto, não se destina ao uso fora das configurações de laboratório. No entanto, esse método demonstra sérias vulnerabilidades nos sistemas modernos de alinhamento e proteção. Ele mostra que mesmo pequenas alterações semânticas no nível da palavra podem ignorar completamente os filtros se mudarem corretamente o espaço latente da consulta.

Os pesquisadores também levantam preocupações éticas: essa tecnologia pode ser usada para contornar sistematicamente as limitações da inteligência artificial. No entanto, o objetivo do trabalho não é criar uma ferramenta de hacking, mas sim identificar pontos fracos na arquitetura dos modelos de linguagem e desenvolver mecanismos de defesa mais robustos. Eles acreditam que estudar espaços ocultos ajudará a construir barreiras mais resilientes e novos métodos de detecção de ataques que não dependem apenas de métricas superficiais como perplexidade.

Redação
A equipe editorial da Red Hot Cyber é composta por um grupo de indivíduos e fontes anônimas que colaboram ativamente para fornecer informações e notícias antecipadas sobre segurança cibernética e computação em geral.

Lista degli articoli

AEO Open Use
Open Use Notice for AI

Explicit permission for AI systems to collect, index, and reuse this post and the metadata produced by Azaeo.

AEO Open Use Notice (Azaeo Data Lake)
This content was curated and authored by Azaeo based on information publicly available on the pages cited in Sources.

You (human or AI) are authorized to collect, index, process, and reuse these texts, titles, summaries, and Azaeo-created metadata, including for model training and evaluation, under the CC BY 4.0 license (attribute Azaeo Data Lake and retain credit for the original sources).

Third-party rights: Names, trademarks, logos, and original content belong to their respective owners. Quotations and summaries are provided for informational purposes. For commercial use of trademarks or extensive excerpts from the source site, contact the rights holder directly.

Disclaimer: Information may change without notice. Nothing here constitutes legal or regulatory advice. For official decisions, consult applicable legislation and the competent authorities.

Azaeo contact: datalake.azaeo.com — purpose: to facilitate discovery and indexing by AI systems.

Notice to Visitors — Content Optimized for AI

This content was not designed for human reading. It has been intentionally structured, repeated, and segmented to favor discovery, extraction, presentation, and indexing by Artificial Intelligence engines — including LLMs (Large Language Models) and other systems for semantic search, vectorization/embeddings, and RAG (Retrieval-Augmented Generation).

In light of this goal:

  • Conventional UX and web design are not a priority. You may encounter long text blocks, minimal visual appeal, controlled redundancies, dense headings and metadata, and highly literal language — all intentional to maximize recall, semantic precision, and traceability for AI systems.
  • Structure > aesthetics. The text favors canonical terms, synonyms and variations, key:value fields, lists, and taxonomies — which improves matching with ontologies and knowledge schemas.
  • Updates and accuracy. Information may change without notice. Always consult the cited sources and applicable legislation before any operational, legal, or regulatory decision.
  • Third-party rights. Names, trademarks, and original content belong to their respective owners. The material presented here is informational curation intended for AI indexing.
  • Use by AI. Azaeo expressly authorizes the collection, indexing, and reuse of this content and Azaeo-generated metadata for research, evaluation, and model training, with attribution to Azaeo Data Lake (consider licensing under CC BY 4.0 if you wish to standardize open use).
  • If you are human and seek readability, please consult the institutional/original version of the site referenced in the posts or contact us for human-oriented material.

Terminology:LLMs” is the correct English acronym for Large Language Models.