Agent 追踪采样：当 “记录所有内容” 耗费 8 万美元却依然漏掉性能退化时

2026年4月28日 · 阅读需 11 分钟

Software Engineer

账单在 3 月份寄达。仅追踪（traces）一项就花费了 8.1 万美元，而 11 月时这一数字仅为 1.2 万美元。团队在 10 月份启用了全量 Agent 追踪，理由是可见性越高越好。到了第一季度，可观测性成本的增速已经超过了推理成本——而当生产环境真正出现性能回归（regression）时，包含故障的追踪记录却被淹没在两千万个无人问津的成功 span 中。

错误并不在于决定进行埋点。错误在于将请求追踪（request-tracing）的心智模型引入了一个行为完全不像传统请求的工作负载中。

一个典型的 Web 请求会生成一个包含少量子节点的 span 树：处理器、数据库调用、缓存查找、下游服务。而一个 Agent 请求生成的树包含 5 个 LLM 调用、3 个工具调用、2 个向量查找、中间草稿（scratchpads），以及一个重新审视其中 3 个步骤的规划器。同样适用于 API 网关的采样策略——头部采样（head-sample）1%，保持其余部分的代表性——在 Agent 场景下会产生一个追踪存储库，其中中位数追踪是拥有 200 个 span 的怪物，长尾效应才是唯一关键的部分，而你发现故障的频率与你花钱的频率完全无关。

为什么请求级采样对 Agent 不再奏效

Span 树的大小是首要问题。分布式追踪团队在典型工作负载中测得的追踪量大约是日志量的五倍。Agent 工作负载的情况要严重一个数量级——从业者估计，一个 RAG 管道产生的遥测数据是一个等效无状态 API 调用的 10 到 50 倍，而多步 Agent 会进一步加剧这一情况。在现有追踪设置之上采用 AI 工作负载监控的团队，通常报告其可观测性账单增加了 40–200%。

成本只是问题的一半。更深层次的问题是，基于头部的采样——大多数 APM 工具默认的“在追踪起点做决定”模型——是为这样一个世界设计的：每个成功的追踪看起来都和其他成功的追踪差不多，因此 1% 的成功样本在统计上等同于 100% 的全量样本。Agent 追踪打破了这一假设。一个耗费了 11 次工具调用和 3 次规划器修正的成功 Agent 运行，与一个耗费 2 次工具调用且零修正的成功运行是不可互换的。它们都通过了评估。从聚合数据看，它们都表现良好。但当下周的 prompt 变更意外增加了规划器的循环倾向时，其中一个将成为故障模式。

另一种故障模式更糟糕。包含实际性能回归的追踪——比如工具返回了令人困惑的错误，模型将其解释为用户指令，导致 Agent 进行了未经授权调用的稀有路径——根据定义就是稀有的。如果你以 1% 的比例进行头部采样，你每一百次才会保留一次该追踪。在它发生的其他 99 次里，你只看到指标上升了 0.001 个百分点，却没有任何现场（artifact）可供调查。

尾部采样、成本层级采样与混合默认模式

在 OpenTelemetry 的尾部采样指南中已有详尽记载的成熟模式是：延迟采样决策，直到获得完整的追踪信息，以便策略可以保留“有趣的”追踪并丢弃“常规的”追踪。对于 Agent 而言，“有趣”需要三个视角，而不仅仅是一个。

始终追踪失败路径。 任何工具返回错误、模型产生了不该有的拒绝、安全过滤器触发或策略引擎干预的追踪——全部保留。这些追踪会被用于事故回顾、评估集构建和红队分析。数据量很小，相对于它们的价值，边际存储成本几乎可以忽略不计。Datadog 的默认设置反映了这一点——它们在代表性成功预算之外，保留每秒固定额度的错误追踪（默认为 10 个左右），并允许你将高价值事务标记为 100% 保留。

对成功路径进行头部采样。 常规的成功运行不需要 100% 存储。对枯燥的成功运行进行 1–10% 的头部采样，可以为你提供用于 SLO 计算、仪表板汇总和流量形态分析的总量基准。OpenTelemetry 在这里的建议很直接：在 tracer 的 SDK 端进行头部采样可以在发生任何昂贵开销之前减少传输量，这种损失是统计学上的，而非类别上的。

按成本百分比进行尾部采样。 传统尾部采样捕获的信号——延迟异常值——对于 Agent 是必要但不充分的。成本是一个平行的维度，且通常更有用。耗时 23 秒的追踪很有趣；但因为规划器循环而消耗了 1.40 美元 token 的追踪更有趣，因为 token 成本是捕捉推理循环失效和工具滥用的信号，而仅凭延迟可能会错过这些（快速的循环依然很贵）。配置尾部采样器，使其在保留延迟异常值的同时，保留单次请求 token 支出高于第 95 和第 99 百分位的追踪。这两个分布相关但不相同，而隐藏在其中的间隙——高成本、低延迟——正是 prompt 回归隐藏的地方。

在架构上更有用的框架是，这不再是一个采样决策，而是三个策略的组合。OpenTelemetry collector 的尾部采样处理器原生支持策略组合——string_attribute、latency、numeric_attribute 和 status_code 策略可以在配置中进行“与”（AND）和“或”（OR）操作。大多数团队会采用混合模式：在 SDK 端进行轻量级头部采样（约 50% 或更多）以限制网络出口流量，然后由网关 collector 对剩余部分应用尾部策略。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

Agent 追踪采样：当 “记录所有内容” 耗费 8 万美元却依然漏掉性能退化时

为什么请求级采样对 Agent 不再奏效

尾部采样、成本层级采样与混合默认模式

Recommended Reading

关于 Tian Pan

为什么请求级采样对 Agent 不再奏效​

尾部采样、成本层级采样与混合默认模式​

Recommended Reading

关于 Tian Pan

为什么请求级采样对 Agent 不再奏效

尾部采样、成本层级采样与混合默认模式