那些被静音的 LLM 报警：当每一次值班看起来都和上一个一模一样

2026年6月3日 · 阅读需 11 分钟

Software Engineer

一次真实的回归在生产环境中持续了两天。告警（Page）已经触发了。它触发得完全正确，阈值准确，严重程度也恰当。三周前，值班轮值（On-call rotation）为该告警族添加了一条静默规则，因为该系列中的每一条告警到目前为止都以同样的注释结案：“无须操作，调查中”。复盘（Post-mortem）无法诚实地将这种静默行为称为错误。这是对一系列值班人员没有 Playbook（运行手册）可循的告警流所做出的理性适应。那个重要的回归就在一个被静默的频道中发布了，因为团队的监控栈产生的信号无法指导具体行动，而团队唯一的应对方式就是：停止倾听。

这并不是一个告警 Bug。这是当团队沿用旧有的 Playbook 对 AI 功能进行埋点时，产生的一种结构性特征。延迟、错误率、拒绝率、输出 Schema 符合度、Judge-eval 漂移——每一个都是合理的指标。每一个触发时都带有同样模糊的“模型行为改变”措辞。但它们都没有告诉值班工程师该做什么，因为没有人写过将每个信号映射到具体动作的 Runbook，因为大多数情况下，信号并不能对应到具体的动作。值班轮值吸收着噪音，直到噪音盖过了信号，然后值班人员就会绕过产生这些信号的频道。

Catchpoint 2025 年度 SRE 报告将值班压力列为近 70% SRE 产生倦怠和离职的根源。标题背后的数字比看起来更糟糕。典型的企业轮值每天会收到来自各个渠道的数百个告警，而 Google 的 SRE Workbook 建议每班处理的可操作告警（Actionable pages）不应超过两个。“触发”与“可操作”之间的鸿沟就是轮值崩溃的地方，而 AI 功能正处于这一鸿沟最糟糕的一端，因为它们产生的每一个信号在结构上都是概率性的。值班人员的心智模型——“这个告警意味着 X 坏了，去做 Y”——对于卡住的部署很有效。但它不适用于“拒绝率在四小时窗口内波动了 0.4 个点”的情况。

为什么 AI 告警在结构上充满噪音

传统的告警之所以触发，是因为一个确定性的谓词翻转了。CPU 超过了 90%。部署流水线返回非零。健康检查超时。值班人员有一套清晰的假设和已知的调查路径。告警映射到 Runbook 中的条目，再映射到命令。事件发生期间的认知负荷虽然很高，但不同事件之间的结构是稳定的。

AI 功能的告警之所以触发，是因为分布发生了偏移。模型开始拒绝一类它以前会接受的请求。Schema 符合度从 99.1% 下降到 97.8%。对响应质量评分的 Judge-eval 漂移了 0.5 分。这些陈述都没有错。它们本身都不是故障。它们可能意味着上游模型出现了真实的回归。它们可能意味着一种良性的样本偏移（Cohort shift）——你的流量模式改变了，因为客户上线了一个新功能，向模型提出了不同的问题。它们可能意味着供应商在不同的集群间重新平衡了负载。它们也可能什么都不代表。

值班人员无法通过告警页面分辨其中的区别。所需的诊断步骤不是“SSH 到机器并读取日志”，而是“调取过去 24 小时的追踪（Traces），抽样 50 个，阅读它们，判断这种变化是回归还是偏移”。这至少是一个 20 分钟的任务，通常会更久，而且典型的答案是“无须操作”。当轮值人员第三或第四次白白支付这种成本后，他们就会意识到，这个代价不值得。

除此之外，LLM 可观测性市场已经趋向于为追踪的每一个指标都发出告警：忠实度（Faithfulness）下降、安全回归、Prompt 漂移、延迟长尾、Token 计数异常、成本飙升。每一个在孤立状态下看都是合理的。而总和则是轮值得为一个三个月前根本不会报警的功能，处理来自五个正交信号类别的告警。

静默规则的局部合理性

当轮值团队添加一条静默规则时，在场的没有任何人是在做错误的决定。他们观察了三周的告警，准确地注意到告警与操作的比率几乎为零。他们准确地注意到告警是有实际成本的：睡眠中断、从正在进行的工作中进行上下文切换、值班人员的流失。他们准确地注意到，即使告警代表了真实的情况，值班工程师也无法解决，因为诊断路径长达数小时且需要对功能有极深的熟悉度。

静默规则在轮值层面是理性的。但在系统层面，它会变得灾难性。被轮值团队静默的信号，正是本可以捕捉到真实回归的那个信号。团队并没有改进信号，而是消除了信号传递的频道。轮值团队以丧失在生产中检测质量回归的能力为代价，换取了即时的生活质量。

这与高误报率的癌症筛查具有相同的动态。在三次良性结果后，个人决定跳过检查是合理的；但在群体层面，结果就是对于关键病例的检测延迟。工程团队在处理身体健康问题时，是通过改进检测手段来解决的，而不是靠提高病人参加检查的自觉性。而在值班中，我们通常反其道而行之——我们试图提高工程师应对嘈杂告警的自觉性，并对这种自觉性撑不过一个季度感到惊讶。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

那些被静音的 LLM 报警：当每一次值班看起来都和上一个一模一样

为什么 AI 告警在结构上充满噪音

静默规则的局部合理性

Recommended Reading

关于 Tian Pan

为什么 AI 告警在结构上充满噪音​

静默规则的局部合理性​

Recommended Reading

关于 Tian Pan

为什么 AI 告警在结构上充满噪音

静默规则的局部合理性