大多数 AI 团队只会构建一次评测套件——在上线前的冲刺阶段,他们精心设计了边界场景用例,记录预期输出,经过评审后发布。六个月后,套件仍然通过。然而,模型在实际生产流量上已经悄然退步,而评测框架却是在那些流量出现之前编写的。它仍然在评判作者提出问题的答案,而非用户真正在问的问题。

这就是"博物馆问题":一个在某个时间点策划的评测套件会不断积累文物。它证明系统能处理某人预期的场景,却无法覆盖真正让它崩溃的场景。
解决方案并非在前期编写更多测试用例,而是构建一个反馈闭环,将每一次生产故障自动转化为永久性回归测试——让套件的覆盖范围与真实使用的复杂性同步增长。
冻结的评测框架及其无声失效的原因