跳到主要内容

隐形模型漂移:供应商静默更新如何破坏生产 AI

· 阅读需 11 分钟
Tian Pan
Software Engineer

周一你的提示词还运行正常。周三,用户开始抱怨响应感觉不对劲——答案变短了,下游的 JSON 解析时不时崩溃,原本准确率 94% 的分类器现在徘徊在 79% 左右。你没有部署任何新代码,配置文件里调用的模型名称还是那个。但某些东西变了。

这就是隐形模型漂移:LLM 供应商在不作任何公告的情况下推送静默的、未记录的行为变更。这是 AI 工程中讨论最少的运营风险之一,它会打击那些"做了所有正确事情"的团队——有评估集、有监控、有稳定的提示词工程。模型就在他们脚下悄悄地变了。

供应商为何不告知你就更新模型

要理解为什么会发生这种情况,你需要了解其背后的激励结构。像 gpt-4-turboclaude-sonnet 这样的模型别名是一个指针,而非一个冻结的制品。供应商会定期更新该指针所指向的内容——安全调优、成本优化实验、能力改进、基于新数据的微调。这些变更在整体上提升了模型,但也可能以供应商内部基准测试从未发现的方式破坏你的特定用例。

供应商有充分的理由快速迭代。安全团队发现了新的失效模式,基础设施团队需要降低推理成本,研究人员想要发布改进成果。这些团队中没有人在思考你花了三周时间在一月份调优的那个 JSON 提取提示词。当他们推送一个让模型在遵循简短指令时稍微更加保守的安全调整时,你那个精心校准的"只用有效 JSON 格式响应"的提示词可能会开始产生带有前缀的响应,比如"以下是你请求的 JSON:"——现在你的解析器就崩了。

这种不透明并非出于恶意,而是一种结构性的错位。供应商的变更日志是为潜在用户编写的("新模型在推理基准上表现更好")。而你需要的是用于回溯性调试的变更日志("以下是这次静默更新中具体发生了哪些行为属性的变化")。

漂移的真实面貌

一项追踪 GPT-4 六个月行为的研究发现,其在医学诊断任务上的准确率从 84.0% 下降至 51.1%,在数学问题上的平均响应冗长度从 638 个 Token 骤降至不足 4 个 Token。这些不是边缘案例,而是在一个主要模型版本上呈现出系统性回归的稳定、有代表性的提示词。

你在生产环境中会遇到的模式:

指令遵循缺口。 模型开始部分忽略它之前遵守的格式约束。"恰好用三个要点回复"变成了四个要点,或者干脆是自由格式的散文。你那为期待之前行为而编写的下游解析器开始报错。

语气和语体的转变。 一个被校准为专业、简洁风格的面向用户的助手,开始添加对话性的填充词。不完全是错的,但不同之处足以在数周后体现在用户满意度指标上。

拒绝风格的变化。 安全调优通常改变的不是模型是否拒绝,而是如何拒绝。之前返回空字符串的拒绝现在返回一整段解释——这会破坏任何检查 if response == "" 的代码。

延迟和 Token 数量漂移。 同样的提示词现在产生的响应变长了 40% 或变短了 60%。如果你基于输出质量向用户收费,或者有延迟 SLA,这就是一个静默的成本和可靠性变化。

事实性和一致性的转变。 即使通用基准分数提高,特定领域问题的事实准确性也可能下降。之前能可靠正确引用产品名称的模型开始产生幻觉变体。

为何传统监控在此失效

大多数团队在表层监控输入和输出:错误率、延迟百分位数、Token 数量。这些指标是必要的,但它们只能捕捉到严重的故障。微妙的漂移——响应质量下降、格式不一致、稍微改变的拒绝行为——在用户开始投诉之前,在这些指标中都只是噪声。

更深层的问题是非确定性。即使在相同的输入上,LLM 的输出也会自然变化。这使得统计漂移检测更加困难:二元"输出是否匹配预期输出"测试对行为漂移的检测能力为零,因为你是在用噪声与噪声进行比较。将行为指纹与二元通过/失败测试进行比较的研究发现,指纹技术对真实行为变化的检测能力达到 86%,而二元测试什么都检测不到。

你无法通过查看当前响应是否与上一个响应匹配来判断模型是否发生了变化。你需要问:这个响应是否属于与基线相同的行为分布?

在用户发现之前检测漂移

行为指纹 是信号最强的技术。核心思路:维护一组精心策划的探针提示词,针对高风险行为——你的系统所依赖的边缘案例、格式敏感的交互、边界拒绝场景。这些不是生产提示词,而是合成诊断工具。按计划对你的生产端点运行这些探针,并在多个维度上对结果评分:响应长度分布、格式合规率、拒绝频率、指令遵循情况。将这些分数聚合成一个行为画像,当该画像与基线的偏差超过阈值时发出警报。

关键洞察在于:你不是在检查单个响应是否匹配黄金输出——你是在检查行为的分布是否与基线分布匹配。单个探针返回意外响应是噪声。十个探针都趋向更长的响应、更多的回避措辞、更不严格的格式合规,则是信号。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates