330 篇博文含有标签「observability」

Agent 工作流的碳计算：Token 预算现已成为 ESG 披露

2026年4月27日 · 阅读需 12 分钟

Software Engineer

无状态的聊天补全（Stateless chat completion）耗电量极低。一次中等规模的 Gemini 文本提示耗电约为 0.24 Wh；一次简短的 GPT-4o 查询约为 0.3–0.4 Wh。这些数字微乎其微，甚至没人会把它们放进董事会演示文稿里。

智能体任务（Agent task）并非普通的聊天补全。一个典型的“研究该客户并起草回复”的工作流可以扇出（Fan out）到 30 多个工具调用、10–15 次模型调用，且上下文窗口随着每一步不断增长。能源成本随调用图（Call graph）呈复合增长。当智能体返回结果时，你消耗的不是一个推理单元，而是五十到两百个。突然之间，每个任务的碳足迹便与视频流达到了同一数量级。

这种算术题很快就会在工程部门之外产生影响。欧盟的 CSRD 使范围 3（Scope 3）排放披露成为受规制公司的强制要求，并要求从 2026 年起提交机器可读的 iXBRL 报告。尽管 SEC 在其最终规则中删除了范围 3，但任何在欧盟有业务的跨国公司仍然必须回答这个问题。采购团队已经开始在供应商调查问卷中加入“你的 AI 功能每个用户任务的碳足迹是多少？”这类问题。大多数工程团队无法回答，因为从来没有人测量（Instrumented）过它。

取消安全的智能体：你的“停止”按钮背后已经产生的副作用

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

用户点击“停止”，因为智能体（agent）误解了请求。UI 界面闪烁着“已停止”。在加载图标消失时，智能体已经发送了两封邮件，在你的日历上安排了周二的会议，针对错误的分支开启了一个草稿拉取请求（pull request），并排队发送了一条正在通过工具层追赶取消信号的 Slack 消息。模型已经听话地停止了生成 token。但外部世界并未停止对它三十秒前生成的 token 做出反应。

这是智能体演示中没人提及的失败模式。同步代码中的取消操作本身就是一个难题，背后有一整代协作式取消理论的支持：Go contexts、Python 的 asyncio.cancel、带有任务组的结构化并发，以及“礼貌请求、谨慎升级、不留资源”的整套语法。智能体在这个本就困难的问题上又增加了一层复杂性：规划器不知道用户在第 4 步和第 5 步之间撤回了授权，而它在第 4 步启动的工具在第 5 步被取消时也不会收到通知。“停止”只是一个 UI 交互功能。其背后的系统必须经过专门设计。

复合型 AI 系统中的内部结算账本

2026年4月27日 · 阅读需 11 分钟

Tian Pan

Software Engineer

当 CFO 第一次问“这个助手每月花掉我们多少钱”时，工程团队会给出一个数字。第二次问时，另一个团队会给出不同的数字。第三次问时，财务部门会给出第三个数字，然后有人会打开一个电子表格，尝试从 Span（跨度）中重新推算账单，因为没有人再相信之前的任何答案。就在这一刻，复合 AI 系统（Compound AI System）不再仅仅是一个架构问题，而变成了一个会计问题。

这种故障的形式是结构性的。一个简单的用户请求“总结我上季度的客户反馈”会触发由团队 A 拥有的智能体，它调用由团队 B 维护的检索工具，接着调用由供应商 X 托管的模型，然后通过团队 C 的重排序工具回传结果，而重排序工具又调用了由供应商 Y 提供的另一个模型。一次点击；五个所有者；两张相隔一个月到达的账单。标准的 FinOps 原语——成本中心、分配标签、账号级汇总——是为了切割那些已经拥有稳定所有者的基础设施而设计的。它们无法清晰地组合在一个每次请求都会跨越团队边界的内部调用图中。

《2026 年 FinOps 现状报告》指出，98% 的 FinOps 团队需要对 AI 支出负责，而同一份调查将“对 AI 成本的实时可见性”列为最大的工具缺口。这个缺口并不是“我们看不见账单”，而是“我们无法足够快地看清是账单的哪一部分是由谁产生的，以至于无法在账单寄到之前让任何人改变其行为”。

LLM 工具表面的契约测试：当供应商更改字段而你的智能体静默适应时

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

上周二，某供应商在工具响应中将 "items" 更改为了 "results"。智能体没有崩溃。它围绕新结构重新进行了规划，返回了一个看起来很自信但丢失了三分之二行数据的答案，而轮值工程师在 3 天后因为客户询问导出数据为何缺失才发现。没有抛出异常。没有触发报警。运行在供应商变更前冻结的固定集（fixture）上的评测套件（eval suite）一直保持绿灯。

这种失败模式是十年前微服务中发明契约测试（contract testing）要捕捉的，而如今几乎没有智能体技术栈具备相应的对策。HTTP 服务有 Pact、schemathesis 和 oasdiff 位于消费者和提供者之间，拒绝让破坏性变更上线。你提供给智能体的工具——REST 端点、内部 RPC、供应商 SDK、MCP 服务器——都没有类似的保障。模型吸收了变化，优雅地进行了适应，并生成了一个看似正确但质量下降的答案。

反事实日志：通过今天的充足记录，在明年的模型上重放昨天的流量

2026年4月27日 · 阅读需 14 分钟

Tian Pan

Software Engineer

每个 LLM 团队最终都会收到主管发来的同一封邮件：“Anthropic 发布了新的 Sonnet。用我们的流量跑一下测试，周五前告诉我是否应该切换。”团队打开生产环境的追踪（trace）存储，调取上个月的请求，并针对新模型排队运行——但在运行三小时后，有人发现工具调用环节的差异评分看起来非常离谱。答案是：没有人以原始形式捕捉工具的响应。追踪记录忠实地记录了模型的“回复”，并存储了每个工具返回内容的一行摘要。回放这些请求并不能回放旧模型实际看到的内容；它回放的是一段被严重压缩的投射。迁移评估并不是在衡量新模型，而是在衡量新模型如何与一个不同的现实对话。

这就是我想讨论的失败模式。大多数生产环境的 LLM 日志都是“以输出为导向”的：它们能很好地回答“模型说了什么？”，但只能模糊地回答“模型看到了什么？”。这种不对称性在你需要针对新模型回放历史数据之前是隐形的——到那时，它就成了整个问题的关键，因为日志记录与实际发送内容之间的差距，正是真实评估与虚假评估之间的差距。

称之为反事实日志（counterfactual logging）：今天就捕捉那些你明天询问“如果用另一个模型处理这个完全相同的请求，它会做什么？”时所需的输入。标准不是“我们记录了请求”，而是“我们可以针对不同的模型重新执行该请求，并确信结果是有意义的”。

评测环境的延迟谎言：为什么你的 p95 在生产环境中翻倍

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

评测团队在 PPT 上写下一个数字：“p95 延迟为 1.2s。” 产品上线。一周后，值班人员发布了一张图表：生产环境中的 p95 为 4.8s，并且在晚餐高峰期持续攀升。工程师们在接下来的五天里争论是否有性能倒退、为模型版本增加埋点、向供应商提交工单——最终发现，除了测量数字的地点之外，什么都没有改变。评测环境报告的是一台安静的机器在热缓存上运行串行调用的延迟。而生产环境是另一套系统。p95 从未出错；它只是在回答一个不同的问题。

这就是评测工具的延迟谎言。这并不是因为基准测试做得不好——大多数团队使用的工具都很合理，报告数字也很诚实。问题在于“模型延迟”与“用户感知的延迟”之间的鸿沟，以及你为开发构建的环境几乎总是测量前者，却暗示后者这一事实。一旦你理解了这一点，基于基准测试得出的延迟 SLO 就不再像是产品承诺，而更像是对一个没人能复现的私人测试环境的声明。

评估集作为模拟器的偏移：当离线指标提升而生产表现恶化时

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

LLM 产品中最昂贵的失败模式并不是一次糟糕的发布。而是连续六次好的发布——从内部所有计分板来看都是如此——而与此同时，用户的信任却在悄悄流失。离线评估分数在每个周五的演示中稳步上升。每周业务回顾中的 CSAT 曲线先是持平，然后下降，接着没人知道它是什么时候开始下降的，因为没人在交叉分析这两张图表。等到复盘总结（postmortem）点出问题时，团队已经花了两个季度的时间，针对一个在第三个月左右就不再符合现实的数据集来调优提示词（prompt）。

这就是“评估集即模拟器漂移”（eval-set-as-simulator drift），也是我所知道的一个最典型的例子：一群跳过了必读清单的 LLM 团队，正以极其惨痛的代价重新发现一个古老的机器学习教训。评估套件（eval suite）并不是一个固定的基准。它是一个模拟器，而一个从未根据它声称要预测的系统进行重新校准的模拟器，最终预测的将是另一个不同的系统。

发现的能力：当用户上线了你团队从未规划的功能

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个客户给客服发邮件，询问为什么你的 CRM 智能助手停止起草他们的 NDA 了。你根本不知道你的 CRM 智能助手竟然在起草 NDA。一位资深用户抱怨说，你的客服机器人的他加禄语（Tagalog）翻译质量自上周以来有所下降。你根本不知道你的客服机器人还会他加禄语。一个论坛帖子传播了一个提示词，能将你的代码审查助手变成一个还算凑合的安全扫描器，不到一个季度，你就收到了针对该助手生成结果提交的 CVE 报告。其中的每一项都是一个拥有用户群、业务影响力，但完全没有组织归属的功能——没有评估（eval）、没有 SLA、没有在 UX 中体现、没有列入路线图，而且还有一个隐蔽的、仅为 1 的公交因子（bus factor）：那个摸索出这种用法的客户。

当你的产品封装了一个能力范围（capability surface）远超你设定范围的模型时，就会发生这种情况。用户会探索更广阔的能力范围，寻找能解决他们问题的行为，并在这些行为之上构建工作流。然后，当你进行下一次模型升级时，即便你的路线图上没有任何变动，他们也会将其视为一种退化（regression）。你与用户之间的契约不再是你书面写下的那份。它包含了模型碰巧为他们做到的、且你碰巧没有破坏掉的所有事情。

将此视为工程上的意外——“我们会强化提示词，增加护栏，下次我们会捕获到它”——这是一种范畴错误（category error）。“发现的能力”（Found capabilities）是一个产品管理问题。这门学科的核心不在于防止它们发生，而在于检测它们、决定如何处理它们，并记住你曾做出的决定。

Token 间抖动：你的 p95 仪表盘看不见的流式传输 UX 失败

2026年4月27日 · 阅读需 13 分钟

Tian Pan

Software Engineer

你的延迟仪表盘显示一切正常。p95 的首字延迟（TTFT）低于 800ms 的目标。p99 的总生成时间也在 4 秒的预算之内。然而，一位资深 PM 转发了一个支持线程：“助手在回答中途卡住了大约三秒钟”，“它停顿了一下，然后突然吐出一整段文字”，“我以为它死机了”。本周有三位用户因为同样的投诉卸载了应用。团队中没人能在笔记本电脑上重现这个问题，而且你记录的每一项指标都显示系统运行健康。

能解释这个 Bug 的指标正是你没在测量的那个：连续 Token 之间时间间隔的分布。一个看起来很完美的 p95 总时长可能会掩盖这样一种流：其中 8% 的响应在生成中途包含一个 2.5 秒的停顿。对于一个看着字符实时出现的用户来说，这种停顿意味着系统出故障了，而不仅仅是慢。你的仪表盘测量的是电影的总时长，而你的用户正在观看电影。

你的 SRE 复盘模板遗漏了决定每次 LLM 故障的六个关键字段

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

当你第一次用经典的 SRE 复盘（Postmortem）模板来分析 LLM 事故时，模板赢了，而事故输了。时间线、诱因、缓解措施、预防措施 —— 每个字段都填好了，每个复选框都勾选了，但在文档的最后，没人能回答唯一重要的问题：究竟是哪个变量发生了变动？不是部署事件。不是基础设施故障。不是代码变更。而是 Prompt 的修订、路由选择的模型切片、未触发报警的 Eval 评分所用的 Judge 配置、质量投诉发生时的检索索引状态、规划器（Planner）正在组合的工具 Schema 版本，或者是异常时间段内的流量组合。这些在模板里都没有对应的一行。

SRE 模板并不是为那些“事实来源是观察到的行为而非代码路径”的系统设计的。在 LLM 技术栈中默默变动的变量，正是模板从未需要列举的变量。强行借用模板，只会产生那种被归类为“持续调查中”的“我们不知道发生了什么变化”的复盘报告。

负载降级是为人类设计的，而 Agent 会放大你正在抵御的风暴

2026年4月27日 · 阅读需 13 分钟

Tian Pan

Software Engineer

对人类来说，503 意味着一个“稍后再试”的页面和一段咖啡休息时间。对 Agent 来说，503 只是在七次重试中的第一次尝试前那 250 毫秒的挫折，而且规划器（planner）已经开始询问 LLM 是否有其他工具可以绕过这个失效的依赖项。第一种行为为过载的服务提供了恢复空间。第二种行为则是过载服务的噩梦：数以千计的关联重试，每一次都比人类的操作更廉价、更快速，其中一半还会扩散（fan out）到下一个依赖项，因为规划器认为那是一个富有创意的变通方案。

负载脱落（Load shedding）—— 即通过丢弃低优先级任务来维持高优先级路径可用的准则 —— 是在流量发送主体主要是键盘前的人类，或者是具有手动调优重试策略且行为良好的服务的时代设计的。当 Agent 集群出现时，这两个假设都会瞬间崩塌。Agent 重试速度更快，能同时从更多地方发起重试，绕过故障重新规划，并把你返回的 503 视为负载均衡的暗示，而不是你本意中希望达成的协作式背压（back-pressure）信号。

本文将探讨为什么标准的负载脱落策略在面对 Agent 客户端时会失效，上游服务需要什么样的原语才能真正卸载 Agent 流量，以及 Agent 本身在工具层和规划层必须做些什么，才能不再成为别人事故报告中的恶意流量。

跨区域 Prompt 版本偏差：你的 CDN 误运行了六小时的 A/B 测试

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你在 09:14 发布了一个系统提示词（system-prompt）变更。发布仪表盘在 09:31 变绿。到 11:00 时，你的评估追踪器依然显示正常，成本仪表盘也无异常，但一位客户成功工程师联系了团队：仅在亚太地区，解析端的结构化输出错误上升了约 3%。北美无异常。欧洲无异常。

发布在覆盖 67% 的区域时自动暂停了，因为某个 POP 节点上的一个非核心健康检查在切换期间发生了抖动，而当时没人注意到。在六个小时里，us-east 和 eu-west 运行着提示词 v47，而 ap-south 和 ap-northeast 仍停留在 v46。你正在运行一个按地理位置划分的实时 A/B 测试——只不过这个测试不是你设计的，你看不到测试过程，而且那个本应捕捉质量回退的评估套件正巧连接到其中一个区域的新版本，然后若无其事地忽略了问题。

这种失败模式并不是单个工具的 bug。它是将提示词通过为不同类型的工件构建的部署系统进行推送时，所产生的可预见的后果。

关于 Tian Pan