为什么你的 LLM 告警总是迟到两周
大多数团队发现其 LLM 性能下降通常是在两周后,当时有人在 Slack 上发消息问:“嘿,有人注意到最近 AI 的输出似乎不太对劲吗?”到那时,损害已经造成:用户已经形成了负面印象,支持工单不断累积,而最初推动该功能的业务负责人也正在悄悄失去信心。
令人沮丧的是,你的基础设施在这段时间内一直非常健康。HTTP 200 状态码、180 毫秒的 p50 延迟、每次请求 0.04 美元的成本——仪表盘上的一切都显示为绿色。模型只是变得更安静、更模糊、更简短且更犹豫,而这些表现是基础设施监控无法察觉的。
这不是通过增加 Datadog 仪表盘就能弥补的监控漏洞。它需要一套完全不同类别的指标。
LLM 静默性能下降的剖析
静默性能下降(Silent degradation)是常态,而非例外。追踪生产部署的研究一致发现,大多数 LLM 在部署后的 90 天内都会出现可衡量的行为偏移(Behavioral drift)。检测延迟——即从性能下降开始到第一个用户投诉的时间——平均为 14 到 18 天。在实践中,这意味着团队始终是在基于过时的模型质量信息进行操作。
性能下降本身有四种截然不同的形式,每种形式都有不同的原因和检测策略。
**行为侵蚀(Behavioral erosion)**是逐渐发生的。回答变得更短。推理链缩减。在模型以前会给出直接回答的语境中,开始出现对冲语言(例如“这可能是”、“你可能想要考虑”)。这是最常见的形式,也是最难检测的,因为任何单一回答看起来都是合理的。
**语义偏移(Semantic drift)**发生在生产查询的分布偏离模型训练分布时。例如,一个针对实物产品配送问题训练的客服模型开始被问及数字交付的问题。模型仍然在生成流畅、自信的文本——但内容是错误的。
**安全层重新校准(Safety layer recalibration)**是团队很少预见到的供应商侧变化。一个以前直接回答某些类型问题的模型,开始添加过多的免责声明,或拒绝处理以前可以处理的边缘案例。拒绝率(Refusal rate)是在几天内缓慢上升,而非几小时。
**上下文腐化(Context rot)**更像是一个能力悬崖,而非平缓的下滑。对 18 个前沿模型的研究测试发现,每一个模型都会随着输入长度的增加而出现性能下降——有些模型在短上下文时准确率为 95%,而在中等长度时降至 60%,这远在达到宣称的上下文窗口限制之前。
这四种形式的共同点在于,标准基础设施监控(延迟、错误率、吞吐量、Token 成本)对它们完全视而不见。一个保持 200 毫秒响应时间的模型可能在 30 天内损失 23 个百分点的任务准确率,却从未触发任何告警。
