智能体系统中的决策溯源：真正有效的审计追踪

2026年4月19日 · 阅读需 15 分钟

Software Engineer

你的生产系统中有一个智能体删除了 10,000 条数据库记录。这次删除符合有效的业务逻辑 —— 这些记录被正确标记了。但三个月后，监管机构提出了一个简单的问题：谁授权了这个操作，智能体是根据什么依据做出决定的？你打开日志，找到了 SQL 语句，找到了时间戳，但什么都找不到了。

这就是决策溯源问题。你可以证明你的智能体采取了行动；但你无法证明它为什么这样做，或者这个行动是否曾经得到了一个真正理解自己在批准什么的人的授权。随着自主智能体开始执行跨越数小时、数十次工具调用、且决策具有真实世界影响的工作流，"我们有日志"与"我们有问责机制"之间的鸿沟已经在运营上变得危险。

传统的后端可观测性回答的是延迟和错误方面的问题。决策溯源回答的是另一个问题：既然这个智能体采取了这个行动，我们能否重建导致该行动的完整推理链、数据链和授权链？ 对于当今大多数生产环境中的智能体系统来说，答案是否定的 —— 而这一鸿沟的代价正在迅速上升。

为什么标准可观测性远远不够

OpenTelemetry span 是追踪执行流程、延迟和错误传播的正确工具，但它不是决策问责的正确工具。一个 span 告诉你工具调用 X 在时间 T 发生，耗时 230 毫秒。它不会告诉你：

是什么推理促使智能体调用了该工具而不是其他工具
智能体使用的数据在决策时是否是最新的
谁授权智能体采取了不可逆的行动
工作流中哪个先前的决策导致了这个决策
智能体的中间推理步骤是正确的还是幻觉产生的

这是根本性的差距。span 是延迟/依赖图。决策溯源是关于为什么而不仅仅是做了什么的语义丰富记录。当一个多智能体流水线产生幻觉并将这个错误通过三个下游智能体级联传播，然后才有人发现时，你的 span 追踪会以完美的顺序显示每一次服务调用，但不会显示是哪个智能体引入了错误的事实，以及为什么每个后续智能体都信任了它。

团队犯的错误是混淆了可观测性（我的系统行为如何？）和溯源（我的智能体为什么做出这个决定？）。两者都需要，而且需要不同的埋点方式。

决策溯源必须回答的四个问题

在设计任何审计架构之前，先明确你需要重建什么。四个问题定义了最小可行溯源记录：

智能体使用了哪些数据，这些数据有多新鲜？ 陈旧的检索是智能体错误最常见的来源之一。如果一个智能体在一次限时抢购期间基于 45 分钟前的库存数据做出了定价决策，你需要在审计日志中记录这个事实。工具调用输出应该携带来源时间戳；检索步骤应该记录决策时的数据新鲜度。

哪条推理路径导致了这个行动？ 一个删除了记录的智能体，和一个因为错误分类了过滤条件而删除了记录的智能体，是同一个行动但却是不同的失败。中间推理步骤 —— 智能体生成的计划、它做出的自我修正、它应用的解释 —— 是区分模型错误、业务逻辑错误和提示词失败的关键。这些步骤需要被记录为一等事件。

这个行动是否得到了授权，由谁授权的？ 不可逆的行动需要在审计追踪中有人工审批标记。可逆行动应该记录其可逆性状态。当授权链跨越多个智能体时 —— 智能体 A 委托给子智能体 B，B 调用了外部 API —— 每次委托都必须可以追溯到授予原始权限的人类。

如果出了问题，谁来负责？ 不是哪个智能体执行了行动，而是哪个人类拥有这个结果。在一个拥有 50 个智能体且没有明确所有权的系统中，监管机构和事件响应者最终会面对同样的问题：谁负责？每个能够采取具有业务影响行动的智能体都需要一个在决策时记录的指定人类所有者。

设计决策事件模式

智能体系统的审计追踪不是一个日志文件 —— 它是一个事件流，其中每个事件代表一个离散的决策。决策事件的模式需要捕获六类信息：

身份和谱系： decision_id（UUID）、session_id（父工作流追踪）、agent_id、parent_agent_id（如果没有委托则为 null）以及 parent_decision_id（触发此决策的内容）。这四个字段让你能够在任何多智能体委托层级中重建因果链。

时间和上下文： ISO8601 时间戳、环境（生产/预发布）以及生成时使用的模型版本和采样参数。模型版本比大多数团队意识到的更重要 —— 提供商在服务端悄悄更新模型会在不更改 API 端点的情况下改变行为。

推理追踪： 推理步骤的有序列表，每个步骤包含智能体得出的中间结论，以及可用的置信度分数。这是当你发现多步骤工作流出错时，能让你找到哪里出了问题的记录，而不是仅仅发现最终输出是错误的。

工具调用： 对于每次工具调用：名称、版本、参数、结果、延迟、状态（成功/失败/超时），以及一个布尔值，指示该调用是否产生了副作用。工具版本很重要；工具定义中的模式漂移是智能体无声失败的主要原因。

数据谱系： 对于每条检索或获取的数据：来源、检索时间戳，以及决策时的数据年龄（新鲜度，以秒为单位）。这是让你能在事后审查中回答"智能体是否在使用陈旧数据？"的记录。

可逆性和授权： 一个布尔值，表示行动是否可以撤销；如果不能，则有一条包含审批者 ID 和时间戳的人工审批结构化记录。如果一个智能体在没有填充此字段的情况下采取了不可逆行动，你的系统就存在治理漏洞。

这些字段会增加开销 —— 但远少于事后重建问责机制的开销。目标不是记录一切，而是记录你回答上述四个溯源问题所需的内容，不多也不少。

所有权移交问题

多智能体系统中决策溯源最难的部分不是模式设计。而是回答这个问题：当智能体 A 委托给子智能体 B 时，谁拥有子智能体 B 的决策？

没有通用答案，但有三种在实践中有效的模式，每种都有不同的问责含义：

保留责任。 智能体 A 将子智能体 B 作为工具调用来调用。从治理角度来看，B 是 A 使用的一种能力。B 的决策就是 A 的决策。A 的审计追踪必须将 B 的决策事件作为子事件包含在内。如果 B 产生了错误的输出，失败归因于 A —— A 在对 B 的输出采取行动之前应该验证过它。

明确的范围委托。 智能体 A 授予子智能体 B 在定义范围内行动的权限：特定工具、特定资源限制、定义的时间窗口。B 的决策事件记录了继承的范围和 parent_agent_id。如果 B 在范围内操作，B 拥有该决策。如果 B 超出范围，该事件会被标记为上报给 A 的人类所有者。Aegis 框架通过要求所有下游请求携带父智能体 ID 标头并将其与允许委托的 DAG 进行验证来强制执行这一点。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

智能体系统中的决策溯源：真正有效的审计追踪

为什么标准可观测性远远不够

决策溯源必须回答的四个问题

设计决策事件模式

所有权移交问题

Recommended Reading

关于 Tian Pan

为什么标准可观测性远远不够​

决策溯源必须回答的四个问题​

设计决策事件模式​

所有权移交问题​

Recommended Reading

关于 Tian Pan

为什么标准可观测性远远不够

决策溯源必须回答的四个问题

设计决策事件模式

所有权移交问题