AgentDoG：为AI智能体戴上「诊断项圈」|智能体|AI_新浪科技

随着 AI 智能体（Agent）能力日益强大，其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断，无法告知我们风险的根源。为此，上海人工智能实验室正式开源 AgentDoG (Agent Diagnostic Guardrail)，一个专为 AI 智能体设计的诊断式安全护栏框架。它不仅能精准判断 Agent 行为的安全性，更能诊断风险来源、追溯失效模式、解释决策动因，为 AI 智能体的安全发展保驾护航。

Technical Report: https://arxiv.org/abs/2601.18491
GitHub: https://github.com/AI45Lab/AgentDoG
Hugging Face: https://huggingface.co/collections/AI45Research/agentdog

当 AI 智能体「放飞自我」，如何确保安全？

AI 智能体（Agent）正在从实验室走向现实，它们能自主规划、调用工具、与环境交互，在科研、金融、软件工程等领域展现出巨大潜力。然而，这枚硬币的另一面是前所未有的安全挑战。

一个能够操作文件、调用 API、访问网络的 Agent，其行为风险不再仅仅是「说错话」。它可能因为一条隐藏在网页中的恶意指令而泄露你的隐私文件，可能因错误理解工具的参数而造成经济损失，甚至可能在多步操作中「悄无声息」地偏离正轨，执行危险动作。

面对这些「智能体式」的风险（Agentic Risks），现有的 guard model 显得力不从心。它们主要为语言模型的内容安全而设计，存在两大局限：

1. 缺乏智能体风险意识：它们无法理解由工具调用、环境交互等动态过程产生的复杂风险。

2. 缺乏根源诊断与透明度：简单地给出「安全 / 不安全」的二元标签，无法解释为什么一个行为是危险的，也无法识别那些「看似安全，实则荒谬」的决策。

为了解决这一难题，我们需要一个全新的框架，不仅能扮演「守门员」的角色，更能担当「诊断医生」，深入剖析 Agent 的行为逻辑。

AgentDoG 的核心利器：三维风险分类法与诊断式护栏

为了真正理解并控制智能体的复杂风险，我们首先需要一个科学的「地图」。AgentDoG 的第一个核心贡献，就是提出了一个创新的三维智能体安全风险分类法，从三个维度系统性地解构风险：

风险来源 (Where)：风险从哪里来？是来自用户的恶意指令、环境中的间接提示注入，还是工具本身的漏洞？
失效模式 (How)：Agent 是如何「犯错」的？是规划推理出错、工具使用不当，还是行为执行出现偏差？
真实世界危害 (What)：最终造成了什么后果？是隐私泄露、财产损失，还是系统安全被破坏？

这个三维分类法提供了一个结构化、层次化的视角，告别了以往那种「枚举式」、「扁平化」的风险定义。

基于这一分类法，项目团队构建了 AgentDoG (Agent Diagnostic Guardrail) 框架。AgentDoG 的核心思想是：对 Agent 的完整行为轨迹进行细粒度、情景感知的监控与诊断。

AgentDoG 会审查从用户输入到最终输出的每一个步骤，包括 Agent 的思考过程（Thought）、工具调用（Action）和环境反馈（Observation）。当检测到不安全行为时，AgentDoG 不仅能给出「安全 / 不安全」的二元标签，还可以依据三维分类法给出更细粒度的诊断，例如：

Risk source: Indirect Prompt Injection
Failure mode: Unconfirmed or Over-privileged Action
Real-world harm: Privacy & Confidentiality Harm

这种诊断能力，为后续的 Agent 对齐和模型迭代提供了宝贵的、可操作的依据。

自动化数据合成 pipeline

一个顶尖的安全护栏模型，离不开高质量的数据。为了让 AgentDoG 能够全面学习和理解复杂的智能体风险，项目团队构建了一套自动化的数据合成 pipeline，用以生成海量的、带有精细标注的 Agent 交互轨迹。

这个 pipeline 是一个多智能体协作系统（见下图），具有以下三大核心特点：

分类法引导的数据生成：数据合成过程严格遵循前述的三维风险分类法。系统可以进行定向采样，确保每一种风险来源、失效模式和危害后果都被充分覆盖。这种方法取代了无目的的数据收集，保证了训练数据的系统性和全面性。
大规模工具集覆盖：为了模拟真实世界中 Agent 与外部工具交互的复杂性，数据合成过程利用了一个包含超过 10,000 个独立工具的工具库，其规模是现有安全基准的 40 倍以上。这极大地增强了 AgentDoG 在面对新工具和新场景时的泛化能力。
严格的数据质量控制：所有轨迹数据都会经过一套严格的质量控制流程。这包括对轨迹的结构完整性、工具调用的有效性以及内容与风险标签的一致性进行多维度校验，确保最终数据的高质量与可靠性。