那些被静音的 LLM 报警:当每一次值班看起来都和上一个一模一样
· 阅读需 11 分钟
一次真实的回归在生产环境中持续了两天。告警(Page)已经触发了。它触发得完全正确,阈值准确,严重程度也恰当。三周前,值班轮值(On-call rotation)为该告警族添加了一条静默规则,因为该系列中的每一条告警到目前为止都以同样的注释结案:“无须操作,调查中”。复盘(Post-mortem)无法诚实地将这种静默行为称为错误。这是对一系列值班人员没有 Playbook(运行手册)可循的告警流所做出的理性适应。那个重要的回归就在一个被静默的频道中发布了,因为团队的监控栈产生的信号无法指导具体行动,而团队唯一的应对方式就是:停止倾听。
这并不是一个告警 Bug。这是当团队沿用旧有的 Playbook 对 AI 功能进行埋点时,产生的一种结构性特征。延迟、错误率、拒绝率、输出 Schema 符合度、Judge-eval 漂移——每一个都是合理的指标。每一个触发时都带有同样模糊的“模型行为改变”措辞。但它们都没有告诉值班工程师该做什么,因为没有人写过将每个信号映射到具体动作的 Runbook,因为大多数情况下,信号并不能对应到具体的动作。值班轮值吸收着噪音,直到噪音盖过了信号,然后值班人员就会绕过产生这些信号的频道。
