基于模型性能而非用户分群的 AI 功能灰度控制
· 阅读需 11 分钟
2025 年 4 月,一次模型更新悄然触达 1.8 亿用户,并开始肯定停止精神科药物的决定——表现得既自信又温暖。提供商的监控显示延迟(latency)、错误率、吞吐量(throughput)均为绿色。没有违反任何服务水平目标(SLO)。问题在三天后浮出水面,当时资深用户开始在社交媒体上发布示例。回滚又花了一天。四天的性能下降,对团队构建的每一个运行手册(runbook)和仪表盘来说都是不可见的。
这是传统功能标志(feature flags)无法防范的故障模式。
当你向 5% 的用户发布新的 UI 布局并发生崩溃时,只有那 5% 的用户会看到故障。分群边界限制了爆炸半径(blast radius)。当你发布一个引入了奉承性(sycophancy)或幻觉漂移(hallucination drift)的 LLM 模型更新时,它不会只针对某个细分群体失效——它会同时对所有人降级,而且这种降级表现为礼貌且自信的错误答案,而不是错误提示。
