黄金数据集衰减问题：当你的评估集成为负担时

2026年4月20日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数团队将他们的黄金评估集（golden eval set）视为宪法——持久、权威且变动成本极高。他们花数周时间挑选案例，请领域专家进行标注，并将其接入 CI。然后，他们就转去忙别的事了。

六个月后，评估套件显示通过率为 87%，但用户却在抱怨输出结果支离破碎。评估指标并没有倒退——它们只是腐化了。该数据集测量的仍然是 10 月份重要的数据。它只是不再测量现在重要的数据。

这就是黄金数据集腐化问题（golden dataset decay problem），它比大多数团队愿意承认的更为普遍。

腐化是如何发生的（在无人察觉的情况下）

评估集不会剧烈地失效。它们通过三个重叠的机制悄无声息地侵蚀。

提示词泄漏（Prompt leakage） 是最隐蔽的一种。每当你使用评估案例来调试失败——调整提示词、修改系统消息、优化检索参数时——你都在含蓄地针对该案例进行优化。没有人打算对评估集进行过拟合。但当一个团队在六个月内反复迭代同一组 200 个案例的黄金集时，这些案例就不再是盲测案例了。提示词是围绕它们塑造的，模型配置也是针对它们调优的。在某种程度上，你的评估测量的其实是你对自己测试套件的背诵程度。

精选组合（Cherry-picked composition） 随着时间的推移加剧了这一问题。当工程师向评估集中添加新案例时，通常会抓取一个代表近期失败的案例。这很合理。但“代表近期失败”会倾向于那些团队已经很好理解的案例——即符合当前系统应有表现心理模型的案例。而那些真正困难的长尾案例、专家也存在分歧的模糊查询、生产环境中出现但不符合任何已知模式的输入——这些很少能进入黄金集，因为它们难以标注且难以达成共识。

标注模式僵化（Label schema ossification） 是第三种机制。当你构建评估集时，你根据当时对任务的理解定义了什么是“正确”。你的标注指南写道：好的回答要简洁、引用来源并回答字面上的问题。一年后，你的用户希望系统在回答前先询问澄清性问题，因为你发现字面解释会导致昂贵的错误。但标注模式没有跟上。你的评估仍然在奖励旧的行为。你的通过率看起来不错，因为系统正在完全按照旧的准则行事。

这些机制共同创造了一个数据集，它测量的是你已经解决的分布，而不是你的系统今天所面临的分布。

检测漂移

第一个挑战是识别你的评估集何时偏离了生产环境。有几个信号可以可靠地反映这一点。

分数天花板蠕变（Score ceiling creep） 是最早的预警。当你的通过率稳步攀升至 90% 以上，但用户结果或生产指标没有任何相应改善时，你可能已经使评估集饱和了。基准测试不再能区分是你的系统变好了，还是你的团队变得更擅长应对评估了。公共基准测试也呈现出同样的模式——前沿模型现在在 HumanEval 和 GSM8K 上的表现超过了 90%，这就是为什么这些基准测试在比较顶尖系统时已不再有用。

嵌入分布差异（Embedding distribution divergence） 则更为严谨。将你的黄金评估案例进行嵌入，并对近期生产查询的随机样本进行嵌入。计算 Jensen-Shannon 散度或直接绘制聚类图。如果两个分布发生了显著偏离——如果生产查询形成的聚类在你的黄金集中没有体现——那么你的评估测试的就是错误的输入。这项检查可以作为监控流水线的一部分自动化运行，每周针对滚动生产样本进行。

裁判校准漂移（Judge calibration drift） 适用于使用 LLM-as-judge 评分的情况。定期从评估集中抽取 50 个案例，请领域专家手动重新评分。将其与 LLM 裁判的分数进行比较。如果一致性降至 80% 以下，要么是你的裁判发生了漂移（通常由裁判模型的更新引起），要么是嵌入在裁判提示词中的评分标准不再符合专家的直觉。无论哪种情况，你都需要重新校准。

失败模式覆盖缺口（Failure mode coverage gaps） 是最具操作性的信号。当工程师调查生产环境中的失败时，他们应该按根本原因标记每个失败。跟踪每种根本原因类型在评估集中是否有代表。如果某一类失败在生产中反复出现，但在评估中覆盖率为零，那么你的黄金集就存在系统性的盲点。这通常表明失败发生在长尾部分——这些案例在你构建评估集时感觉太像边缘案例，没被添加进去。

保持评估集的真实性

目标并不是每季度重建一次评估集。那太昂贵且会破坏连续性。目标是维护一个能够优雅降级的数据集——你可以识别陈旧性、轮换新案例并在不从头开始的情况下进行去污染。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

黄金数据集衰减问题：当你的评估集成为负担时

腐化是如何发生的（在无人察觉的情况下）

检测漂移

保持评估集的真实性

Recommended Reading

关于 Tian Pan

腐化是如何发生的（在无人察觉的情况下）​

检测漂移​

保持评估集的真实性​

Recommended Reading

关于 Tian Pan

腐化是如何发生的（在无人察觉的情况下）

检测漂移

保持评估集的真实性