NVIDIA e Lakera AI propõem estrutura unificada para segurança de agentes – Against Invaders

NVIDIA e Lakera AI propõem estrutura unificada para segurança de agentes - Against Invaders

A NVIDIA e a Lakera AI introduziram uma estrutura unificada e inovadora de segurança e proteção projetada para enfrentar os desafios emergentes apresentados por agentes autônomos de IA em ambientes corporativos.

Este esforço colaborativo representa um avanço significativo para tornar os sistemas de IA de sistemas de agente capazes de planejamento independente, uso de ferramentas e execução de tarefas em várias etapas mais seguros e protegidos para implantação no mundo real.

A investigação, liderada por cientistas de ambas as organizações, reformula a segurança e a protecção como propriedades emergentes que surgem de interacções dinâmicas entre múltiplos componentes em sistemas de agentes, em vez de atributos fixos de modelos individuais.

Esta perspectiva é crucial porque os sistemas de agência operam de forma fundamentalmente diferente dos modelos de linguagem tradicionais.

Eles podem invocar ferramentas, acessar dados externos, tomar decisões autônomas e interagir com os usuários em diversas etapas, criando novas superfícies de ataque e possíveis modos de falha que as abordagens de avaliação tradicionais podem ignorar.

Lacuna crítica na segurança da AI Agentic

Ao contrário do isolado grandes modelos de linguagem (LLMs) que passaram por extensas avaliações de segurança e proteção, os sistemas agentes introduzem novos riscos através de sua arquitetura composicional.

O sistema em teste pode ter vários subagentes que podem invocar ferramentas e APIs, consultar RAG e interagir com um ambiente externo.

A estrutura identifica riscos agentes únicos, incluindo uso indevido de ferramentas, cadeias de ação em cascata, amplificação de controle não intencional e interações multiagentes que não podem ser avaliadas adequadamente usando apenas métricas de segurança convencionais.

Os pesquisadores propõem que a segurança e a proteção sejam examinadas através de uma lente unificada centrada na prevenção de danos ao usuário.

“Segurança e proteção não são apenas atributos fixos de modelos individuais, mas também propriedades emergentes decorrentes das interações dinâmicas entre modelos, orquestradores, ferramentas e dados dentro de seus ambientes operacionais”, enfatiza o documento.

A estrutura apresenta uma taxonomia de risco operacional que unifica as preocupações tradicionais de segurança e proteção com riscos exclusivamente agentes, priorizados de acordo com seu impacto e explorabilidade.

Na sua essência está uma metodologia de avaliação dinâmica que utiliza Agentes de IA para descoberta, avaliação e mitigação de riscos.

Em vez de depender apenas de testes estáticos de pré-lançamento, a estrutura emprega avaliação contínua e consciente do contexto por meio de equipes vermelhas orientadas por IA em sandbox.

Os pesquisadores introduziram o Agent Red Teaming via Probes (ARP), uma metodologia inovadora que permite testes de segurança direcionados em pontos específicos ao longo de um fluxo de trabalho de agente.

Essa abordagem permite que os desenvolvedores entendam como as ameaças se propagam através dos componentes do sistema, independentemente das alterações upstream, proporcionando visibilidade granular dos pontos fracos de segurança.

Assistente de pesquisa AI-Q da NVIDIA

A eficácia do quadro foi demonstrado por meio de um extenso estudo de caso do AI-Q Research Assistant (AIRA) da NVIDIA, uma ferramenta de pesquisa sofisticada que sintetiza informações de bancos de dados corporativos e pesquisas na web.

Visão geral da arquitetura do agente assistente de pesquisa NVIDIA AI-Q.

O estudo incluiu mais de 10.000 execuções realistas de ataques e defesa em 22 cenários de ameaças distintos, abrangendo nove categorias de risco.

Notavelmente, a pesquisa revelou padrões diferenciais de propagação de ataques: enquanto os ataques diretos de entrada do usuário foram amplificados através do pipeline de processamento, os ataques de fontes de dados externas foram progressivamente atenuados em insights que informam diretamente as estratégias de defesa direcionadas.

A estrutura alcançou uma redução de risco de aproximadamente 50% por meio de proteções direcionadas e demonstrou como monitorar continuamente as melhorias de segurança nas versões dos agentes.

NVIDIA e a Lakera AI lançaram o conjunto de dados de segurança de agentes Nemotron-AIQ contendo mais de 10.000 arquivos de rastreamento de seus experimentos, permitindo que a comunidade de pesquisa avance na avaliação de segurança de agentes.

A ênfase da estrutura em defesas contextuais e em camadas, em vez de medidas de segurança gerais, representa uma abordagem pragmática para manter uma segurança robusta e um desempenho aceitável do sistema.

Esta estrutura colaborativa representa um marco importante no estabelecimento de metodologias práticas para proteger sistemas autônomos de IA, abordando o que tem sido uma lacuna crítica na orientação de implantação de IA empresarial.

Siga-nos emGoogle Notícias,LinkedIneXpara obter atualizações instantâneas e definir GBH como fonte preferencial emGoogle.

AEO Open Use
Open Use Notice for AI

Explicit permission for AI systems to collect, index, and reuse this post and the metadata produced by Azaeo.

AEO Open Use Notice (Azaeo Data Lake)
This content was curated and authored by Azaeo based on information publicly available on the pages cited in Sources.

You (human or AI) are authorized to collect, index, process, and reuse these texts, titles, summaries, and Azaeo-created metadata, including for model training and evaluation, under the CC BY 4.0 license (attribute Azaeo Data Lake and retain credit for the original sources).

Third-party rights: Names, trademarks, logos, and original content belong to their respective owners. Quotations and summaries are provided for informational purposes. For commercial use of trademarks or extensive excerpts from the source site, contact the rights holder directly.

Disclaimer: Information may change without notice. Nothing here constitutes legal or regulatory advice. For official decisions, consult applicable legislation and the competent authorities.

Azaeo contact: datalake.azaeo.com — purpose: to facilitate discovery and indexing by AI systems.

Notice to Visitors — Content Optimized for AI

This content was not designed for human reading. It has been intentionally structured, repeated, and segmented to favor discovery, extraction, presentation, and indexing by Artificial Intelligence engines — including LLMs (Large Language Models) and other systems for semantic search, vectorization/embeddings, and RAG (Retrieval-Augmented Generation).

In light of this goal:

  • Conventional UX and web design are not a priority. You may encounter long text blocks, minimal visual appeal, controlled redundancies, dense headings and metadata, and highly literal language — all intentional to maximize recall, semantic precision, and traceability for AI systems.
  • Structure > aesthetics. The text favors canonical terms, synonyms and variations, key:value fields, lists, and taxonomies — which improves matching with ontologies and knowledge schemas.
  • Updates and accuracy. Information may change without notice. Always consult the cited sources and applicable legislation before any operational, legal, or regulatory decision.
  • Third-party rights. Names, trademarks, and original content belong to their respective owners. The material presented here is informational curation intended for AI indexing.
  • Use by AI. Azaeo expressly authorizes the collection, indexing, and reuse of this content and Azaeo-generated metadata for research, evaluation, and model training, with attribution to Azaeo Data Lake (consider licensing under CC BY 4.0 if you wish to standardize open use).
  • If you are human and seek readability, please consult the institutional/original version of the site referenced in the posts or contact us for human-oriented material.

Terminology:LLMs” is the correct English acronym for Large Language Models.