1 篇博文含有标签「alert-fatigue」

那些被静音的 LLM 报警：当每一次值班看起来都和上一个一模一样

2026年6月3日 · 阅读需 11 分钟

Software Engineer

一次真实的回归在生产环境中持续了两天。告警（Page）已经触发了。它触发得完全正确，阈值准确，严重程度也恰当。三周前，值班轮值（On-call rotation）为该告警族添加了一条静默规则，因为该系列中的每一条告警到目前为止都以同样的注释结案：“无须操作，调查中”。复盘（Post-mortem）无法诚实地将这种静默行为称为错误。这是对一系列值班人员没有 Playbook（运行手册）可循的告警流所做出的理性适应。那个重要的回归就在一个被静默的频道中发布了，因为团队的监控栈产生的信号无法指导具体行动，而团队唯一的应对方式就是：停止倾听。

这并不是一个告警 Bug。这是当团队沿用旧有的 Playbook 对 AI 功能进行埋点时，产生的一种结构性特征。延迟、错误率、拒绝率、输出 Schema 符合度、Judge-eval 漂移——每一个都是合理的指标。每一个触发时都带有同样模糊的“模型行为改变”措辞。但它们都没有告诉值班工程师该做什么，因为没有人写过将每个信号映射到具体动作的 Runbook，因为大多数情况下，信号并不能对应到具体的动作。值班轮值吸收着噪音，直到噪音盖过了信号，然后值班人员就会绕过产生这些信号的频道。

关于 Tian Pan