AI 审计追踪是产品功能,而非合规勾选项
麦肯锡 2025 年的调查发现,75% 的业务负责人正以某种形式使用生成式 AI —— 但近一半的人已经遭遇过严重的负面后果。这种差距并非模型质量问题,而是信任问题。而缩小这一差距的最快路径不是更多的评估(evals)、更好的提示词(prompts)或新的前沿模型,而是向用户准确展示智能体(agent)做了什么。
大多数工程团队将审计追踪视为事后才考虑的事情 —— 就像你为了 GDPR 合规或 SOC 2 认证而临时接入的东西,然后将其锁在只有运维人员(ops)查看的内部仪表盘中。这是错误的做法。当用户能看到智能体调用了哪个工具、检索了哪些数据,以及哪条推理分支生成了答案时,会发生三件事:采用率上升,支持工单减少,并且模型错误能比任何后端警报提早数天显现。
信任差距与模型质量无关
当用户向 AI 智能体提交问题并得到错 误答案时,他们很少知道 为什么 出错。是检索步骤出了问题?是模型对工具结果产生了幻觉?还是规划器选错了子智能体?从用户的角度来看,这是一个失败的黑盒。他们的理性反应是停止使用 —— 或者将每一个模棱两可的输出都上报给人工处理。
算法透明度的研究证实了这种动态。用户根据可用信息来校准信任。当信息为零时,信任默认会走向两个极端:盲目过度依赖(自动化偏见)或全面排斥。这两种结果都会损害产品指标。透明度 —— 特别是展示智能体的工作过程,而不仅仅是它的结论 —— 给用户提供了他们所需的信号来进行适当的校准。
这里有一个值得提及的细微差别。生硬的透明度可能会适得其反。在聊天界面中直接丢出一堆 JSON 日志或技术追踪树会让非技术用户感到不知所措,并传达出“这个系统很复杂且可能已损坏”的信号。设计上的挑战在于,如何在 合适的时机 向 合适的受众 展示 合适深度 的推理过程。下文将详细展开。
展示什么,以及何时展示
用户从可见性中获益的阶段有三个:智能体行动前、执行期间和完成后。
在智能体行动前,展示意图预览。对于任何具有重大副作用的操作 —— 发送邮件、更新记录、预约日历 —— 请展示智能体即将执行的操作、简短的理由以及编辑或取消的选项。这一单一模式消除了很大一类用户投诉:“智能体做了我没要求的事。” 事实证明,这些投诉大多不是因为智能体出错了,而是 因为用户感到失去了控制。
在执行期间,轻量级的步骤指示器比沉默更有效。用户不需要看到每一个 token;他们需要看到进度正在推进,以及大致在进行什么样的工作。“正在搜索内部知识库... 找到 4 份相关文档... 正在生成回复...” 就足够了。它将延迟感从“出故障了”重新定义为“正在工作”。
完成后,详细的追踪变得很有价值 —— 但仅在用户请求时展示。默认视图应该是答案。一个可折叠的“我是如何得到这个结果的”披露项,展开后显示工具调用、检索来源、置信度信号和执行时间,这能为好奇或怀疑的用户提供所需信息,同时不会让其他人的界面变得凌乱。高级用户和支持工程师将常驻在该展开视图中;大多数用户只会看一眼,并因知道它的存在而更加信任系统。
支持工单中的信号
这是一个反直觉的生产实践发现:向用户公开智能体推理过程的团队,不仅能看到支持工单量下降,还能更早地发现模型错误。这两个结果是相关的。
当用户能看到智能体的推理过程时,他们可以自己识别故障模式。“它检索了错误的文档”是可操作的反馈,而“答案错了”则不是。用户能够精准标记的自我诊断错误,比通过后端异常检测发现的错误(通常基于聚合指标,有 24–48 小时的滞后)复现更快、修复也更快。
来自生产部署的具体数据证明了这一点。具有可见智能体追踪路径的 AI 辅助支持系统,其工单拦截率达到 50%,而黑盒系统仅为 23%。当智能体能够解释其诊断结果时, P1/P2 级别的故障解决时间会缩短 60%,因为环节中的人工可以立即验证或覆盖智能体的推理,而不是从头开始重新调查。首次联系解决率从 45% 提高到 80%。
这种机制并非魔法。透明的追踪路径让智能体的决策表面对所有人(用户、支持人员和产品工程师)都清晰可见。一个原本需要三天才能从聚合错误率中定位的 Bug,会被一名看到追踪路径并注意到查询步骤返回了过期结果的用户,在第一天就精准地报告出来。
如何构建追踪层 (Trace Layer)
对于工程团队来说,好消息是:逐步追踪的基础设施大部分已经内置在主要的 Agent 框架中了。目前的差距在于如何将其连接到面向用户的界面。
LangGraph 将 Agent 建模为有限状态机,这意味着每个节点——检索、规划、工具调用、专家子 Agent——都已经是一个离散的、可审计的单元。LangSmith 会自动捕获这些 span 并将其存储为树状结构:顶部是根 Agent span,下方是每个推理步骤的子 span,每个节点都带有时间戳、输入和输出。目前的工作重点是将该追踪以用户可展示的格式提取出来,而不是将其留在 LangSmith UI 中。
Anthropic 的 Claude 通过环境变量配置公开了兼容 OpenTelemetry 的追踪事件。设置 OTEL_LOG_TOOL_DETAILS=1 和 OTEL_LOG_TOOL_CONTENT=1 可以将工具调用参数和结果捕获为结构化的 span。通过 TRACEPARENT 进行的 W3C 追踪上下文传播,可以将 Agent span 缝合到包含后端和数据库层的分布式追踪中。
OpenAI 的 Agents SDK 在 SDK 层面包含原生追踪支持,对于简单的单 Agent 场景,其配置开销比 LangGraph 更低。
第三方可观测性平台——Langfuse、LangWatch、Arize——位于所有这些框架之上,并增加了标注、用户反馈收集和评估层。当你希望在不自己构建渲染层的情况下拥有面向用户的追踪显示时,它们是正确的选择。
无论使用哪种框架,实现模式都是相同的:
- 为每个用户交互分配唯一的追踪 ID (Trace ID)。
- 为每个离散的 Agent 步骤发出一个 span:意图分类、检索、工具调用、子 Agent 调用、综合。
- 附加结构化元数据:工具名称、参数、结果、延迟,以及可用的置信度分数。
- 以可查询的格式存储 span,并按追踪 ID 和用户 ID 建立索引。
- 公开一个读取端点,返回给定交互 ID 的追踪树。
- 在 UI 中将其渲染为可折叠的时间轴,而不是原始的 JSON 转储。
最后一点是团队投入不足的地方。一个带有易于理解的步骤标签的可折叠时间轴(例如:“正在搜索你的账户历史以查找 3 月份的交易……”)会被视为一项功能。而原始的 span 日志则会被视为调试产物。两者的区别仅在于内部步骤名称与面向用户的描述之间的一层标签映射。
透明度困境
一个真实的失败模式是:过度解释不确定性。关于 AI 算法透明度的研究发现了一种特定模式:当系统呈现不确定性来源,却不提供如何解释这些来源的指导时,信任度反而会 下降。
如果你的追踪显示“置信度:0.43”而没有上下文, 看到它的用户会对比整个系统失去信心——即使对于某些任务来说,0.43 实际上已经高到足以可靠。置信度信号需要进行框架化。要么以相对术语显示它们(例如:“此答案提取自高质量的内部文档”与“此答案涉及推断”),要么根本不要向最终用户显示原始分数。将精确数字留给你的内部工具。
同样,在包含 15 个步骤的链条中显示每个工具调用,会将关键信号淹没在噪声中。面向用户的追踪应该突出显示真正决定结果的两三个关键步骤,而完整的追踪则留给需要调试的工程师。
设计原则是:针对理解优化默认视图,针对调试优化展开视图。这是两群有着不同需求的不同受众,将他们混为一谈产生的 UI 将无法服务于任何人。
如何在无需大规模架构重构的情况下起步
大多数团队不需要在第一天就对所有内容进行检测。一个最小化的有用审计追踪包含三个组件:Agent 检索了哪些数据、Agent 采取了哪些行动,以及 Agent 对原因的说明。
从这里开始。在每个 Agent 回答下方添加一个“来源”部分,显示该回答参考了哪些文档或数据记录。为 Agent 采取的每个重要行动添加简短的理由说明。在折叠开关后记录带有每步延迟的工具调用序列。
这足以显著提升信任度。点击一次“来源”并验证 Agent 检索准确的用户,会变成信任系统的用户,并停止升级边界情况。你第一天不需要一个完整的可观测性平台;你需要一个可靠的追踪 ,来回答“这个答案是从哪里来的?”
那些将透明度视为产品功能的团队——将其与模型、检索系统和任务界面一起迭代——始终优于那些在最后才将其硬塞进去的团队。审计追踪不是官僚负担。它们是用户决定是否让 Agent 自主行动的机制。请据此进行设计。
- https://www.tandfonline.com/doi/full/10.1080/0144929X.2025.2533358
- https://www.sciencedirect.com/science/article/pii/S2444569X25001155
- https://www.smashingmagazine.com/2026/02/designing-agentic-ai-practical-ux-patterns/
- https://sierra.ai/blog/agent-traces
- https://medium.com/@kuldeep.paul08/the-ai-audit-trail-how-to-ensure-compliance-and-transparency-with-llm-observability-74fd5f1968ef
- https://dev.to/custodiaadmin/implementing-visual-audit-trails-for-llm-agents-in-production-a-step-by-step-guide-3p83
- https://langwatch.ai/blog/top-10-llm-observability-tools-complete-guide-for-2025
- https://www.usepylon.com/blog/ai-ticket-deflection-reduce-support-volume-2025
- https://sqmagazine.co.uk/ai-agent-autonomy-statistics/
