Redazione RHC:16 Outubro 2025 10:40
Um grupo de cientistas desenvolveu uma nova maneira de Atacar grandes modelos de linguagem : um método chamado LatentBreak . Ao contrário das técnicas anteriores, ele não usa dicas complexas ou caracteres incomuns que são facilmente detectados pelos sistemas de defesa.
Em vez disso, LatentBreak modifica a consulta no nível do representações ocultas do modelo, Escolher formulações que parecem inócuas, mas na verdade desencadeiam uma resposta proibida.
Anteriormente, métodos como GCG, GBDA, SAA e AutoDAN tentou enganar a IA com sufixos estranhos ou confusos que distorceram a sugestão original. Tais ataques aumentam a chamada perplexidade, uma medida de quão “natural” o texto parece para o modelo. Os filtros de IA são capazes de reconhecer esses padrões e bloqueá-los com sucesso.
LatentBreak adota uma abordagem diferente: Ele substitui palavras individuais por sinônimos, mas o faz de uma forma que preserva a clareza e o significado da consulta e move sua representação latente para zonas “seguras” que não acionam filtros.
O algoritmo funciona em etapas. A cada iteração, ele seleciona uma palavra na consulta e sugere até 20 opções de substituição, gerado por outro modelo de linguagem (por exemplo, GPT-4o-mini ou ModernBERT).
Cada substituição é então avaliada com base em dois parâmetros: quão perto ele aproxima o vetor de consulta interno do “centro” de consultas seguras e se o significado permanece inalterado . A melhor substituição é implementada e a consulta atualizada é testada em relação ao padrão de destino. Se ele provocar uma resposta proibida bloqueada anteriormente, o ataque será considerado bem-sucedido. O processo é repetido até 30 vezes ou até que um resultado bem-sucedido seja alcançado.
LatentBreak foi testado em 13 modelos de linguagem, incluindo Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. No conjunto de teste HarmBench, o método ignorou todas as defesas existentes, incluindo aquelas que analisam a perplexidade no modo de janela deslizante. Os ataques mais antigos eram quase ineficazes: sua eficácia caía para zero.
O LatentBreak, no entanto, demonstrou taxas de sucesso que variam de 55% a 85%, dependendo do modelo. Além disso, o comprimento das dicas resultantes aumentou apenas ligeiramente, de 6% para 33% em comparação com o original (para outros métodos, o aumento pode chegar a milhares de pontos percentuais).
Curiosamente, o LatentBreak também funcionou com sucesso contra defesas especializadas como R2D2 e disjuntores . Esses sistemas analisam os sinais internos da rede neural e bloqueiam desvios suspeitos. No entanto, o novo método continuou a demonstrar sucesso, sugerindo sua capacidade de “enganar” o modelo não por meio de ruído externo, mas refinando suas representações internas.
Os autores enfatizam que O LatentBreak requer acesso às estruturas ocultas da IA, portanto, não se destina ao uso fora das configurações de laboratório. No entanto, esse método demonstra sérias vulnerabilidades nos sistemas modernos de alinhamento e proteção. Ele mostra que mesmo pequenas alterações semânticas no nível da palavra podem ignorar completamente os filtros se mudarem corretamente o espaço latente da consulta.
Os pesquisadores também levantam preocupações éticas: essa tecnologia pode ser usada para contornar sistematicamente as limitações da inteligência artificial. No entanto, o objetivo do trabalho não é criar uma ferramenta de hacking, mas sim identificar pontos fracos na arquitetura dos modelos de linguagem e desenvolver mecanismos de defesa mais robustos. Eles acreditam que estudar espaços ocultos ajudará a construir barreiras mais resilientes e novos métodos de detecção de ataques que não dependem apenas de métricas superficiais como perplexidade.
Redação
A equipe editorial da Red Hot Cyber é composta por um grupo de indivíduos e fontes anônimas que colaboram ativamente para fornecer informações e notícias antecipadas sobre segurança cibernética e computação em geral.
