评估疲劳周期:为何AI质量度量在上线后走向崩溃
AI评估的命运遵循着一条可以预测的弧线。冲刺零阶段:所有人都认同评估至关重要。上线周:套件运行顺畅,演示效果完美。第六周:CI任务开始被跳过。第十周:有人调高了失败阈值以消除告警。第四个月:绿色仪表盘已毫无意义,人人心知肚明,却无人点破。
这就是评估疲劳周期,它几乎普遍存在。尽管业界在自动化评估工具上持续投入多年,其市场渗透率仍仅有38%——这意味着大多数团队依然依赖人工审查作为主要的质量门控。当下一个模型版本升级,或本周Prompt已是第三次更改时,这些人工审查往往第一个被牺牲掉。
崩溃并非随机发生,它遵循一种可预测的衰退模式,在每个阶段都有可识别的失效模式。理解这一模式,是打破它的前提。
衰退的四个阶段
阶段一:上线高峰期。 在产品上线前的几周,团队对评估投 入了高度关注。他们发现回归问题,迭代Prompt,打磨评估标准。每个人都将评估套件视为真正的工程制品。这是系统正常运转的时期。
阶段二:首次跳过。 上线后,节奏发生了变化。一个Prompt的单行修复在周五下午被推送上线。运行完整的评估套件需要20分钟,还要为LLM API花费真实的费用。有人决定"就这一次"跳过——逻辑是:我们没有改变任何核心内容,不过是调整了一下措辞。这个判断是错误的,但这个决定是隐形的。没有人收到通知。短期内也没有任何问题暴露。
阶段三:阈值膨胀。 数周后,评估套件发现了一个真实的回归问题,但它并未表现为用户可见的投诉。修复底层行为很困难,而提高通过阈值却很简单。团队选择了后者。这种情况发生一次,然后两次,直到阈值不再反映"我们承诺的质量水平",而是"我们的模型当前的实际表现"。评估已经倒置——它如今追踪的是输出结果,而非约束它。
阶段四:僵尸仪表盘。 CI任务按计划运行,亮起绿灯,却无人查看。新功能上线时没有对应的评估覆盖。评估数据集已有九个月未更新,它是针对已不存在的Prompt和早已改变的行为构建的。团队在潜意识里已经学会:绿色徽章没有任何预测价值。他们不再在评估失败时提交事件报告,也不再在评估通过时欢呼庆祝。
这是大多数团队默默经历的状态。生产质量在一千次微小决策中逐渐退化,而每一次单独来看都显得无害。
