智能体审计追踪：自主决策时代的合规之道

2026年4月15日 · 阅读需 13 分钟

Software Engineer

当一位人工贷款官员拒绝一份申请时，这个决定背后有一个具体的名字。这位官员接收了特定信息，经过深思熟虑后做出了行动。推理过程或许并不完美，但它是可归因的——有人可以被联系、被质询、被追责。

当一个 AI 智能体拒绝同一份申请时，留下的只有一条数据库记录。这条记录表明决定已做出，但没有说明原因，没有说明是什么输入驱动了这个决定，没有说明当时运行的是哪个版本的模型，也没有说明系统提示词是否在两周前悄悄更新过。当你的合规团队将这条记录交给监管机构时，监管机构不会满意。

这就是智能体审计追踪问题，而大多数构建 AI 智能体的工程团队至今尚未解决它。

为何 AI 决策打破了传统审计模型

传统审计追踪建立在一个简单假设之上：一个有名字的人接收了信息，做出决定，然后采取行动。因果链条清晰地映射到法律问责上。审计框架——HIPAA、SOX、SEC Rule 17a-4——正是为这个世界而设计的。

AI 智能体同时打破了这一模型中的每一个假设。

不确定性。 基于 LLM 的智能体具有随机性。相同的提示词在不同时刻会产生不同的工具调用序列。传统审计框架假设确定性回放是可能的——即可以通过重新运行过程来重建决策。而对于智能体来说，这个假设从设计上就是错误的。

身份激增。 智能体系统在运行时会产生临时子智能体、容器身份和特定于工作流的服务账户。ISACA 2025 年的一项分析发现，"数百个容器身份可能在没有所有权标签、审查记录或访问理由的情况下被创建。"当十几个不同的智能体工作流共享同一个服务账户凭证时，任何显示"service_account_prod 访问了 14,000 次记录"的访问日志，对于 HIPAA 审计来说都没有任何归因价值。

多智能体级联。 当智能体 A 编排智能体 B，智能体 B 调用工具 C，工具 C 写入数据库 D 时，谁来为结果负责？这个归因问题并不能简单地归结。推理失败可能源于该链条的任何一层，如果没有对每一跳进行完整的分布式追踪，事后分析就只是猜测。

思维链不透明。 一种常见的工程直觉是记录模型的推理轨迹。但这比看起来更不可靠。Anthropic 自己 2025 年的研究发现，推理模型仅在 25-39% 的情况下在思维链输出中披露了其真实意图。思维链是推理的表演，而非可靠的推理记录。

上下文窗口状态。 智能体在做出决策时的"心理状态"完全包含在其上下文窗口中——检索到的文档、工具输出、先前的对话轮次、系统提示词。不记录完整上下文状态就记录输出，你就无法重建智能体行动时所知道的内容。

法规实际要求什么

HIPAA

HIPAA 要求记录所有 PHI 访问事件的日志。对于 AI 智能体，智能体对患者记录存储所做的每一次查询——包括自主子智能体所做的查询——都是受监管的数据访问事件。2025 年 HIPAA 安全规则修正案使全面访问日志记录成为强制要求，取消了给予组织灵活性的"可处理"类别。

结构性问题：HIPAA 要求将访问归因于唯一标识符。AI 智能体通过共享服务账户凭证访问患者数据，不符合这一要求。你需要每个智能体或每个工作流的独立身份，而不是十几个工作流可以互换使用的共享 API 密钥。

保留期：从创建之日起六年。

SOX 第 404 条

SOX 要求记录、批准和验证所有影响财务报告的系统变更。应用于 AI 系统，这意味着：

每次模型版本升级都必须经过正式的变更管理流程，并有书面批准——就像生产代码部署一样。
对财务重要智能体的每次系统提示词更改也是如此。
访问或修改财务数据的 AI 智能体必须留下可追踪的记录，显示访问了什么、修改了什么以及时间。

更深层的问题是第 302 条和第 906 条认证。CFO 和 CEO 需要亲自认证财务报表的准确性。如果 AI 智能体产生或重大影响了这些报表，而认证高管无法检查智能体的决策过程，他们就是在证明他们无法核实的准确性。这会造成个人法律风险。

SEC Rule 17a-4

2022 年 10 月对 Rule 17a-4 的修正案为 WORM 存储增加了审计追踪替代方案。对于经纪交易商，AI 生成内容的实际影响：当 AI 输出对外传输时，记录保留义务便被触发。停留在内部工具中的 AI 生成交易建议不会触发。一旦该建议通过电子邮件或聊天发送给客户，它就成为需要保留的记录。

必须保留的内容：建议本身、产生建议的输入数据，以及生成时的模型或系统配置。根据记录类型，保留期为三到六年。

SEC 在 2024 财年因记录保留违规对 70 多家金融机构处以超过 6 亿美元的罚款——而那时 AI 智能体尚未普及。其 2024 年 3 月对两家投资顾问因虚假 AI 声明采取的执法行动确立了一个实际教训：没有可验证的决策日志，公司就没有为自己辩护的证据基础。

决策归因架构

每一个能够通过合规审查的 AI 智能体日志条目，都需要捕捉四个层面的信息。

身份层——谁和什么做出了决定：

唯一智能体 ID（不是共享服务账户）
智能体类型（编排者、子智能体、工具执行器）
将多轮任务所有步骤链接在一起的会话或工作流 ID
发起工作流的人类或上游系统的委托人 ID
用于分布式因果关系的 W3C 追踪上下文 trace_id 和 span_id

模型溯源层——运行的是什么：

精确的模型标识符，包括版本（例如 claude-opus-4-5，而不仅仅是 claude）
提供商名称
对于自托管模型，权重或配置的哈希值，以检测提供商端的静默更换
系统提示词版本或哈希——因为提示词更改会在不触及模型标识符的情况下改变行为
用于成本归因和异常检测的令牌计数

上下文层——智能体知道什么：

决策时的完整上下文窗口状态，或指向不可变存储的内容寻址哈希
RAG 检索索引版本和检索到的特定文档 ID
工具可用性清单——执行时提供的工具及其版本

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

智能体审计追踪：自主决策时代的合规之道

为何 AI 决策打破了传统审计模型

法规实际要求什么

HIPAA

SOX 第 404 条

SEC Rule 17a-4

决策归因架构

Recommended Reading

关于 Tian Pan

为何 AI 决策打破了传统审计模型​

法规实际要求什么​

HIPAA​

SOX 第 404 条​

SEC Rule 17a-4​

决策归因架构​

Recommended Reading

关于 Tian Pan

为何 AI 决策打破了传统审计模型

法规实际要求什么

HIPAA

SOX 第 404 条

SEC Rule 17a-4

决策归因架构