那些被静音的 LLM 报警:当每一次值班看起来都和上一个一模一样
一次真实的回归在生产环境中持续了两天。告警(Page)已经触发了。它触发得完全正确,阈值准确,严重程度也恰当。三周前,值班轮值(On-call rotation)为该告警族添加了一条静默规则,因为该系列中的每一条告警到目前为止都以同样的注释结案:“无须操作,调查中”。复盘(Post-mortem)无法诚实地将这种静默行为称为错误。这是对一系列值班人员没有 Playbook(运行手册)可循的告警流所做出的理性适应。那个重要的回归就在一个被静默的频道中发布了,因为团队的监控栈产生的信号无法指导具体行动,而团队唯一的应对方式就是:停止倾听。
这并不是一个告警 Bug。这是当团队沿用旧有的 Playbook 对 AI 功能进行埋点时,产生的一种结构性特征。延迟、错误率、拒绝率、输出 Schema 符合度、Judge-eval 漂移——每一个都是合理的指标。每一个触发时都带有同样模糊的“模型行为改变”措辞。但它们都没有告诉值班工程师该做什么,因为没有人写过将每个信号映射到具体动作的 Runbook,因为大多数情况下,信号并不能对应到具体的动作。值班轮值吸收着噪音,直到噪音盖过了信号,然后值班人员就会绕过产生这些信号的频道。
Catchpoint 2025 年度 SRE 报告将值班压力列为近 70% SRE 产生倦怠和离职的根源。标题背后的数字比看起来更糟糕。典型的企业轮值每天会收到来自各个渠道的数百个告警,而 Google 的 SRE Workbook 建议每班处理的可操作告警(Actionable pages)不应超过两个。“触发”与“可操作”之间的鸿沟就是轮值崩溃的地方,而 AI 功能正处于这一鸿沟最糟糕的一端,因为它们产生的每一个信号在结构上都是概率性的。值班人员的心智模型——“这个告警意味着 X 坏了,去做 Y”——对于卡住的部署很有效。但它不适用于“拒绝率在四小时窗口内波动了 0.4 个点”的情况。
为什么 AI 告警在结构上充满噪音
传统的告警之所以触发,是因为一个确定性的谓词翻转了。CPU 超过了 90%。部署流水线返回非零。健康检查超时。值班人员有一套清晰的假设和已知的调查路径。告警映射到 Runbook 中的条目,再映射到命令。事件发生期间的认知负荷虽然很高,但不同事件之间的结构是稳定的。
AI 功能的告警之所以触发,是因为分布发生了偏移。模型开始拒绝一类它以前会接受的请求。Schema 符合度从 99.1% 下降到 97.8%。对响应质量评分的 Judge-eval 漂移了 0.5 分。这些陈述都没有错。它们本身都不是故障。它们可能意味着上游模型出现了真实的回归。它们可能意味着一种 良性的样本偏移(Cohort shift)——你的流量模式改变了,因为客户上线了一个新功能,向模型提出了不同的问题。它们可能意味着供应商在不同的集群间重新平衡了负载。它们也可能什么都不代表。
值班人员无法通过告警页面分辨其中的区别。所需的诊断步骤不是“SSH 到机器并读取日志”,而是“调取过去 24 小时的追踪(Traces),抽样 50 个,阅读它们,判断这种变化是回归还是偏移”。这至少是一个 20 分钟的任务,通常会更久,而且典型的答案是“无须操作”。当轮值人员第三或第四次白白支付这种成本后,他们就会意识到,这个代价不值得。
除此之外,LLM 可观测性市场已经趋向于为追踪的每一个指标都发出告警:忠实度(Faithfulness)下降、安全回归、Prompt 漂移、延迟长尾、Token 计数异常、成本飙升。每一个在孤立状态下看都是合理的。而总和则是轮值得为一个三个月前根本不会报警的功能,处理来自五个正交信号类别的告警。
静默规则的局部合理性
当轮值团队添加一条静默规则时,在场的没有任何人是在做错误的决定。他们观察了三周的告警,准确地注意到告警与操作的比率几乎为零。他们准确地注意到告警是有实际成本的:睡眠中断、从正在进行的工作中进行上下文切换、值班人员的流失。他们准确地注意到,即使告警代表了真实的情况,值班工程师也无法解决,因为诊断路径长达数小时且需要对功能有极深的熟悉度。
静默规则在轮值层面是理性的。但在系统层面,它会变得灾 难性。被轮值团队静默的信号,正是本可以捕捉到真实回归的那个信号。团队并没有改进信号,而是消除了信号传递的频道。轮值团队以丧失在生产中检测质量回归的能力为代价,换取了即时的生活质量。
这与高误报率的癌症筛查具有相同的动态。在三次良性结果后,个人决定跳过检查是合理的;但在群体层面,结果就是对于关键病例的检测延迟。工程团队在处理身体健康问题时,是通过改进检测手段来解决的,而不是靠提高病人参加检查的自觉性。而在值班中,我们通常反其道而行之——我们试图提高工程师应对嘈杂告警的自觉性,并对这种自觉性撑不过一个季度感到惊讶。
- https://devops.com/the-end-of-alert-fatigue-how-ai-powered-observability-is-transforming-sre-teams-in-2026/
- https://oneuptime.com/blog/post/2026-03-05-alert-fatigue-ai-on-call/view
- https://venturebeat.com/infrastructure/monitoring-llm-behavior-drift-retries-and-refusal-patterns
- https://pingfatigue.com/runbooks-oncall
- https://earezki.com/ai-news/2026-04-26-the-3-alerts-every-llm-team-should-have-set-up-by-tomorrow/
- https://technivorz.com/production-monitoring-alerts-for-llm-quality-drops-tackling-ai-performance-degradation-alerts-in-enterprise-teams/
- https://www.pagerduty.com/blog/3-steps-suppressing-alert-noise/
- https://support.pagerduty.com/main/docs/auto-pause-incident-notifications
- https://www.ibm.com/think/insights/alert-fatigue-reduction-with-ai-agents
- https://openobserve.ai/blog/llm-monitoring-best-practices/
