跳到主要内容

为什么 AI 质量监控会将模型漂移、数据漂移和提示词漂移混为一谈 —— 以及针对每种情况的对策

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个欺诈检测模型的准确率在三周内悄无声息地下降了一半。延迟正常,错误率为零,所有基础设施仪表盘都显示绿色。工程师们在第一周审计数据管道,第二周比较模型权重,第三周重新审视工单,直到有人发现欺诈者只是改变了他们的语言模式。修复工作——用最近的样本重新训练——只花了两天。而误诊却花了三周。

这种模式在生产环境中的 AI 团队里不断重复:性能下降触发了笼统的“模型问题”警报,团队开始基于直觉而不是根本原因来调整参数。原因并不是缺乏监控纪律,而是大多数可观测性技术栈将三个结构上截然不同的问题混为一谈。模型漂移(Model drift)、数据漂移(Data drift)和提示词漂移(Prompt drift)具有不同的检测特征、不同的警报拓扑结构和不同的修复路径。将它们混淆,就会在错误的修复方案上浪费数周时间。

这三个问题并非同一个问题

**数据漂移(Data drift)**意味着输入的分布发生了变化。输入与输出之间的关系仍然有效——如果你的模型看到了正确的输入,它就能得到正确的答案——但现在进入的数据与模型训练时的数据看起来不同了。例如:支付处理器从固定的一组支付方式转向数十个新的金融科技集成;支持工单分类器收到的多语言输入超过了其设计初衷;上游架构更改导致以前的空字段(null field)以不同的方式编码。统计特征是可测量的:群体稳定性指数(PSI)得分上升,Kolmogorov-Smirnov 检验标记特征,空值率监控器出现峰值。

**概念漂移(Concept drift)**意味着输入与输出之间的关系本身发生了变化。模型接收到合理的输入,并自信地产生预测——但由于世界已经发生了变化,这些预测越来越错误。训练用于抓取“你中奖了”的垃圾邮件过滤器,漏掉了使用“学校用品”语言的新一代垃圾邮件发送者。在稳定经济环境下训练的信用模型在经济衰退期间错误分类了借款人。输入在统计上看起来正常,这正是这种漂移最难检测的原因。它需要地面真值(ground truth)标签来确认,而这些标签通常在做出预测数周后才会到达。

提示词漂移(Prompt drift)——在 LLM 上下文中有时被称为特征漂移——完全属于另一个类别,而且是传统机器学习(ML)监控完全忽略的一个类别。它涵盖了三种故障模式:基础模型被提供商悄悄更新了;提示词或检索系统发生了变化,降低了下游质量;或者生产环境的输入模式偏离了提示词设计时所能处理的范围。2023 年的一项研究发现,GPT-4 在素数识别任务上的准确率在 3 月到 6 月间从 84% 下降到了 51%——且没有任何版本升级或变更日志。对于任何只观察特征分布或基础设施指标的监控器来说,这种退化是不可见的。

关键区别在于:数据漂移需要调查你的数据管道;概念漂移需要重新训练你的模型;提示词漂移需要调查你的提示词、检索源或模型版本。这些是不同的调查过程、不同的值班手册以及不同的工程时间线。

为什么常规监控会漏掉诊断

标准的基础设施监控是为无状态系统设计的。它观察 CPU、延迟、吞吐量和错误率。当一个欺诈模型放过的欺诈交易比平时多出 2 倍时,所有这些指标依然保持绿色。系统是健康的,只是输出结果错了。

最常见的监控升级——增加数据质量检查和特征分布监控——解决了数据漂移问题,但解决不了其他问题。空值率警报和统计距离指标会告诉你上游数据何时发生了偏移。但它们无法告诉你模型的内部推理是否仍然有效(概念漂移),或者你上周二部署的提示词和模型版本是否表现如预期(提示词漂移)。

第三个差距是标签延迟(label latency)。概念漂移需要地面真值来确认,而在大多数生产系统中,标签在预测发出数天或数周后才会到达。当你的监控仪表盘上出现可衡量的准确率下降时,模型已经失准数周了。上述欺诈案例非常典型:误诊窗口期并非异常,而是基于延迟信号构建反应式监控的预期后果。

结果是,无论根本原因是什么,团队都会求助于同一个手段:重新训练模型。针对数据漂移进行重新训练通常会有所帮助。针对概念漂移使用正确标记的近期数据进行重新训练通常也有帮助。但针对提示词漂移进行重新训练则毫无用处,因为问题出在模型权重之外的上游。

区分类型的检测特征

对于数据漂移,信号是早期且可衡量的。通过分层告警窗口跟踪特征集的 PSI 分数:1 小时窗口捕捉突然的流水线中断,7 天窗口在捕捉有意义偏移的同时平滑噪音,30 天窗口揭示缓慢的累积。单独监测数据质量——空值率激增、新的分类值、越界数值——因为这些问题需要与分布漂移不同的修复方式,且如果同等对待会产生误报。关键的检测决策:在训练时对特征进行剖析以建立基准,然后进行持续对比。

对于概念漂移,直接衡量需要你通常尚未拥有的标签。实用的方法是监测与质量相关的代理信号:用户行为指标(会话长度、重新表述查询率、对生成内容的参与度)、领域特定的代理指标(旅游助手的预订完成率、风险模型的欺诈率)以及预测分布偏移(模型输出分布的变化可以预示决策边界已经移动,甚至在标签确认之前)。告警阈值应根据业务成本进行校准——欺诈系统在性能下降 5% 时就值得立即升级处理;推荐系统可能可以容忍 15%。

对于提示词漂移,你需要传统机器学习监控无法提供的追踪级检测。捕捉完整的执行追踪:系统提示词版本、检索到的文档、中间推理步骤和工具调用。为每次交互标记模型版本和提示词版本。对生产流量的每日样本运行自动化评估——不是每周,而是每天——这样你就能在供应商更新或部署后的几个小时内发现性能下降。持续跟踪输出特性:长度、语气标记、工具选择模式。当这些特性在部署后或在没有显式更改的情况下发生偏移时,这就是你的信号。

针对提示词漂移的关键复合告警是:输入的嵌入向量分布偏移结合评估分数下降。单一信号产生的误报过多。两者结合可以显著减少噪音。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates