跳到主要内容

评估天花板:当你的黄金测试用例失去区分度时

· 阅读需 11 分钟
Tian Pan
Software Engineer

一年前,你的评估套件(eval suite)表现得非常出色。候选模型的得分分布在 60 到 80 分之间,排名结果能为你提供有效的参考。新的微调模型比基准模型高出 6 分;更廉价的模型则低了 3 分。决策依据这些数字而产生。而今天,在同样的评估套件下,每个候选模型的得分都是 95、96 或 97 分,得分差距已经缩小成了噪音。你的团队仍在运行评估,仍在阅读报告,仍在利用它为迁移亮绿灯——但这份报告已经不再包含任何有效信息。

这不是基准测试污染(benchmark contamination),也不是世界漂移引起的衰减(world-drift decay)。这是一个测量工具的问题:你的测试用例是针对平台已经超越的难度水平而校准的。尺子没有坏;而是你正在测量的东西已经超出了它的量程。那些没有意识到这一点的团队,仍然在使用一个辨别范围与所比较的候选模型不再重叠的工具来进行模型决策。

饱和现象具有可辨识的特征

公共基准测试文献在过去两年里一直在大声疾呼这个问题,但这一教训尚未传播到内部评估套件中。MMLU 在前沿模型中已饱和至 88% 以上,得分集中在 2 分以内的区间。GSM8K 在顶尖竞争者中已突破 99%,使其对于顶层对比失去了作用。BIG-Bench Hard 在 2022 年设计时是为了考验前沿模型,但在发布后的 12 个月内得分就达到了 94%。Humanity's Last Exam 在 2025 年初被创建,明确是因为现有的工具已经耗尽了提升空间。

你的内部评估套件也呈现出相同的特征——同样的顶部压缩——但你并没有察觉到它如此严重,因为候选模型较少,且在停下来思考之前,那个区间看起来像是信号。问问自己,现在有多少比例的案例是每个候选模型得分都超过 95 的?当答案是“绝大多数”时,你的工具在每个问题上提供的信息量已趋于零。

经典的心理测量学框架是思考这一问题最清晰的方式。在项目反应理论(item response theory, IRT)中,每个测试题目都有两个关键参数:难度(difficulty)和辨别力(discrimination)。一个具有高辨别力的题目拥有陡峭的成功曲线——能力稍强的考生能通过,能力稍弱的则失败,拐点处的斜率非常尖锐。辨别力差的题目则是平坦的:任何超过某个较低阈值的候选者都能通过,因此该题目无法告诉你这些候选者中谁更优秀。评估套件是一个题库,而题库的使用寿命取决于其难度分布是否仍然跨越了你试图比较的能力范围。

当能力范围上移而难度分布保持不变时,每个题目都会从成功曲线中间的陡峭区域迁移到顶部的平坦区域。套件依然会产生一个数字。只是这个数字不再是一项测量指标。

失败模式是悄无声息且充满自信的

团队很少会注意到天花板,因为流程的每个环节依然运作良好。评估运行完成,报告正常生成,数字被填入模型对比表格中。评审人员引用“通过评估套件,96.2% vs 基准 95.8%”作为迁移安全的证据。这种决策过程的质感与套件尚具备辨别力的时代感觉并无二致。

失败会在几周后的下游环节显现。一个由 0.4 分的评估提升所批准的模型迁移,在上线四周后导致客户支持请求激增。一个被评估套件认可的供应商更换,导致了在没人测试过的长尾案例上出现质量退化的投诉。一个“评估分数相当的更廉价模型”决策因为重试而耗尽了预算,因为这个廉价模型在生产流量中失败了,而这些流量恰好不在评估套件的采样范围内。

这种损害不在于你选错了模型——有时你运气好,饱和的评估结果和真实排名正好一致。损害在于你在没有任何信息的情况下做出了决定,却对此一无所知。扔硬币或者看一眼生产追踪记录(production trace)可能都比这更好。评估带给你的信心仅取决于套件的全面性,而不是其中任何一个案例的辨别力。

与之密切相关的古德哈特定律(Goodhart's Law)失败进一步放大了这种盲目自信:供应商和内部团队多年来一直在针对公开的基准测试进行训练,因此你的私有套件中从公开来源借用的那部分案例,正是最饱和的部分。你从 MMLU 复制到“通用知识”评估部分的案例,很可能已经在候选模型的预训练过程中以某种形式出现过。评估不仅是饱和的——它在某种方向上被污染了,从而进一步压缩了得分空间。

有效的规范流程是什么样的

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates