你的值班轮换需要 AI 素养作为前提，否则不要在凌晨 2 点给任何人发报警

2026年4月28日 · 阅读需 13 分钟

Software Engineer

一位拥有 8 年事故响应经验的平台工程师打开了一条凌晨 2 点的报警信息：“AI 助手性能下降 —— 错误率 12%”。她检查了模型延迟仪表盘：绿色。检查了模型 API 状态页：绿色。检查了部署日志：过去 72 小时内没有任何变更。她做了任何称职的值班人员接下来会做的事 —— 呼叫 AI 团队。AI 工程师醒来，打开了平台工程师甚至不知道存在的追踪 (trace) 仪表盘，发现一个检索工具在过去 4 小时内一直超时，原因是一个下游搜索索引丢失了一个副本，并在 11 分钟内解决了事故。AI 工程师在凌晨 3:14 重新入睡。第二天早上的复盘记录写道：“AI 功能故障，由 AI 团队解决”。没有人写下真正的教训：如果这位值班工程师曾被教导过 AI 功能的故障面 (failure surface) 长什么样，她本可以在 5 分钟内完成分流 (triage)。

这是 AI 功能在过去两年中，向我合作过的每一个工程团队悄悄征收的“轮换税”。曾经完美适用于无状态服务堆栈和几个数据库的共享值班轮换，在其中一个“服务”变成由 LLM 驱动的功能时就会崩溃。你的 SRE 团队通过十年的事故复盘建立的值班手册，是为一个“某处出错了”可以分解为 CPU、内存、网络、部署和依赖超时的世界而校准的。AI 功能增加了三个维度 —— 模型、提示词 (prompt)、检索管道 —— 以及四种值班人员从未接受过识别培训的故障形态，这些故障不会出现在他们习惯查看的仪表盘上。

你现有的值班培训从未建模过的故障维度

当传统服务降级时，值班人员会走一条窄小且熟悉的决策树：部署 → 基础设施 → 上游依赖 → 吵闹邻居 (noisy neighbor) → 错误 (bug)。每个分支都有一个仪表盘。每个仪表盘都有一份操作手册 (runbook)。AI 功能迫使增加了三个大多数轮换手册尚未命名的分支：

模型行为降级，但模型延迟显示为绿色。 供应商推送了底层模型的一个静默补丁版本 —— 拒绝行为改变了，结构化输出格式漂移了，昨天还起作用的工具调用参数今天变成了空值。延迟仪表盘一切正常。如果你只计算 HTTP 5xx，错误率仪表盘也一切正常。真正的信号隐藏在评估 (eval) 通过率中，或者用户点踩数量翻倍的尖峰中，而这些都没有接入警报。正如一篇可观测性分析报告所说：“LLM 功能可能会在所有 SLO 指标保持绿色的情况下逐渐退化 —— 这种故障可能是行为上的，而不是功能上的。”

伪装成模型故障的工具依赖故障。 智能体的检索工具超时了，所以模型在空的上下文窗口中进行推理，并生成了言之凿凿的错误答案。追踪显示一个干净的模型调用返回了一个干净的响应。值班人员看到“AI 功能损坏”并将警报向上路由。实际的修复工作是一个 5 分钟的数据库副本故障切换，平台值班人员本来在梦中都能完成 —— 只要他们被告知过，追踪分析包含一个应该首先检查的工具层。

来自 AI 团队未发布的特性标志 (feature flag) 的提示词层回归。 增长实验将一个个性化变量切换到了系统提示词的上下文中。模型行为改变了。AI 团队没有发布任何东西。增长团队没意识到他们的标志位于 AI 功能的上游。值班人员看到“AI 功能在 14:00 UTC 后降级”并呼叫 AI 团队，后者花了 90 分钟对比提示词差异，最后才有人想到去检查特性标志。

这三种形态占据了非工作时间 AI 警报的很大一部分。它们都可以由全栈值班人员分流，但前提是轮换制度已经培训了该值班人员去识别它们。大多数轮换制度还没有做到。

“AI 素养”对值班工程师来说究竟意味着什么

“AI 素养”这个词在人力资源的 PPT 里被当作毫无意义的流行语使用。但对于值班轮换来说，它是一份具体的技能清单。接听 AI 功能警报的值班人员应该能够在不呼叫任何人的情况下完成以下五件事：

端到端地阅读模型追踪 (trace)。 识别提示词、模型及其版本、按顺序排列的工具调用、工具响应以及最终的助手响应。这与阅读 HTTP 追踪不是同一种技能。Token 边界、消息角色 (roles) 和工具调用 ID 都很重要。
区分模型层、工具层和检索层。 在任何没有特意按层拆分的仪表盘中，一层的故障在表面上看起来与另一层完全相同。
阅读评估 (eval) 结果。 通过率、与前一个提示词版本相比的回归增量，以及哪个切片失败了。如果你的评估对值班人员来说是个黑盒，那么评估信号在最需要的时候就会被浪费掉。
对比提示词清单 (prompt manifest) 的差异。 找到最后一次修改提示词、系统指令、工具描述或检索器配置的提交。大多数 AI 功能回归都发生在模型上游的配置文件中。
识别针对你特定产品的五大 AI 事故形态，并附上每个事故的仪表盘 URL 和第一步分流步骤。通用的 AI 培训在这里没有帮助；操作手册必须具体到你的 AI 功能实际执行的操作。

这就是全部。五项技能。两到四个小时的专注培训，外加一份值班人员在昏昏沉沉时也能阅读的书面操作手册。没有做到这一点的组织，正在为 AI 团队不断跳动的传呼机付出代价。

告警正悄无声息地要求你进行的仪表板维护投入

一个显示 “AI 助手性能下降 (AI assistant degraded)” 的页面无法告诉值班人员该调查哪一层。这相当于在 “服务崩溃” 时触发告警 —— 这是一个标签，而不是信号。在将 AI 功能纳入职责范围之前，任何轮班制度的首要投入都应该是拒绝发布这种粒度的告警。

最小可行重构：每个 AI 功能的告警标题都必须标明故障层。“AI 助手：工具层 (搜索) — 12% 错误率。” “AI 助手：模型层 — 拒绝率激增。” “AI 助手：检索层 — 索引新鲜度 > 4 小时。” 看到告警标题的值班人员知道该打开哪个仪表板，以及该遵循操作手册 (runbook) 的哪一部分。这是仪表板维护，而不是仪表板创新，然而在过去的一年里，我审计了三个不同组织的值班流程，他们都在使用单一的、没有分层归因的综合 “AI 功能健康度” 指标来触发告警。这些轮班中的每一次传呼最后都会升级到 AI 团队，因为值班人员别无选择。

第二项投入，稍复杂一些：一个值班人员可以从告警直接跳转到的工具级健康仪表板。包括工具调用超时、工具调用错误率、工具结果新鲜度和工具依赖状态。如果你的智能体 (agent) 有六个工具，你需要一个能在 30 秒内回答 “这六个工具中是否有任何一个目前性能下降” 的仪表板。一旦 AI 功能进入共享轮班，这个仪表板就不再是可选的，而是先决条件。

共同值班阴影期：比员工倦怠更廉价的选择

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

你的值班轮换需要 AI 素养作为前提，否则不要在凌晨 2 点给任何人发报警

你现有的值班培训从未建模过的故障维度

“AI 素养”对值班工程师来说究竟意味着什么

告警正悄无声息地要求你进行的仪表板维护投入

共同值班阴影期：比员工倦怠更廉价的选择

Recommended Reading

关于 Tian Pan

你现有的值班培训从未建模过的故障维度​

“AI 素养”对值班工程师来说究竟意味着什么​

告警正悄无声息地要求你进行的仪表板维护投入​

共同值班阴影期：比员工倦怠更廉价的选择​

Recommended Reading

关于 Tian Pan

你现有的值班培训从未建模过的故障维度

“AI 素养”对值班工程师来说究竟意味着什么

告警正悄无声息地要求你进行的仪表板维护投入

共同值班阴影期：比员工倦怠更廉价的选择