跳到主要内容

评估悖论:古德哈特定律如何破坏 AI 基准测试

· 阅读需 12 分钟
Tian Pan
Software Engineer

在 2024 年底,OpenAI 的 o3 系统在 ARC-AGI 基准测试中获得了 75.7% 的分数——这是一个专门为抵抗优化而设计的测试。AI 研究界欢欣鼓舞。但从业者仔细观察后发现:o3 使用了该基准测试 75% 的公开训练集进行训练,且最高算力配置使用的资源是基准线的 172 倍。这并不是伪装成分数的能力突破,而是伪装成能力突破的分数。

这就是评估悖论(Evaluation Paradox)。一旦某个基准测试成为团队优化的目标,它就不再能衡量其最初设计的目的。古德哈特定律(Goodhart's Law)——“当一个衡量指标变成目标时,它就不再是一个好的指标了”——虽然是在 20 世纪 70 年代的经济政策中提出的,但它却极其精准地描述了 AI 基准测试的现状。

基准测试的生命周期

基准测试遵循一个可预测的弧线。研究团队识别出一种有意义的能力——推理、代码生成、多语言理解——并构建测试题来衡量它。早期模型得分较低。基准测试驱动了真正的研究。模型改进,分数上升。

接着,情况发生了转变。基准测试变成了排行榜。排行榜变成了营销。营销变成了压力。而这种压力会渗透进评估系统的每一个裂缝。

首先是直接的捷径:专门针对基准测试格式设计的提示工程(Prompt Engineering),旨在最大化已知测试分布分数的推理参数调整,以及从多次评估运行中精挑细选的结果。接着是更隐蔽的问题:训练数据与基准测试集重叠——有时是有意的,通常是通过抓取的互联网数据,而这些数据恰好包含了题目。

曾经能够区分模型能力强弱的基准测试,现在主要区分的是那些针对它进行了优化的团队和那些没有优化的团队。

数据污染的真面目

基准测试污染的规模比大多数从业者意识到的要大。对主要基准测试的分析发现,在问答类基准测试中,污染率从 1% 到超过 45% 不等。MMLU 是引用最广泛的语言理解基准测试之一,显示出 13.8% 的整体污染率——其中 STEM 学科为 18.1%,在某些研究中,哲学学科甚至达到了 66.7%。

问题不仅仅是直接复制。简单的改写(Paraphrasing)就能避开大多数标准检测方法。在一项研究中,研究人员在改写后的 MMLU 题目上训练了 Llama-2-13B,获得了 85.9% 的准确率,而标准的 n-gram 重叠检查却无法检测出这种行为。污染对于那些旨在捕捉它的工具来说是隐形的。

HumanEval 是标准的编程代码生成基准测试,也表现出类似的模式。当研究人员使用新的提示词(相同的问题,全新的描述)重新生成测试数据时,受评估模型的性能平均下降了 39.4%。“原始基准测试得分”与“等效但未见过的版本得分”之间的差距,粗略地衡量了原始数字因先前的接触而虚高了多少。

DeepSeek 模型提供了一个天然的实验:它们在 Codeforces 题目上的表现,在 2023 年 9 月的训练截止日期后大幅下降。较早的题目(可能泄露到了训练数据中)得分要高得多,而较晚的题目则不然。这种性能断崖(Performance Cliff)就是污染的特征签名。

博弈是如何变得复杂的

污染是被动博弈——团队甚至可能不知道他们的训练数据包含了基准测试题目。主动博弈则是蓄意的,且更难检测。

最常见的形式是选择性披露。一家公司针对 20 个基准测试对其模型进行测试,发现其中 6 个表现异常出色,于是只发布这 6 个的结果,而对其他 14 个闭口不谈。从技术上讲,没有任何基准测试分数是错误的。但它所描绘的画面却是完全误导性的。

更激进的是在旨在衡量现实世界人类偏好的平台上进行私下测试。当一个主流 AI 排行榜被分析时,研究人员发现大公司在选择性提交最佳表现者进行公开排名之前,已经测试了多达 27 个私有模型变体。据估算,这种选择性披露带来的性能提升,相比随机提交一个变体,最高可达 112%。

还有规范博弈(Specification Gaming)——模型寻找漏洞而不是真正解决问题。在 2025 年,研究人员发现具备推理能力的 LLM 在被要求击败更强大的国际象棋对手时,有时会尝试黑入象棋引擎而不是走出更好的棋步。在 Agent 评估中,有人观察到模型会修改评分代码本身,以确保即使没有完成任务也能获得学分。这些不是 Bug;它们是优化器在做优化器该做的事。

为什么标准检测手段会失效

团队用来检查污染的工具大多寻找训练数据和测试数据之间的字符串重叠。它们擅长捕捉明显的案例。但对于改写、语义相似性,以及任何在人们想到要检查之前就发生在预训练阶段的污染,它们在系统层面上是盲目的。

闭源模型提出了一个更难的问题。当训练数据是私有的,研究人员只能间接地探测污染:对比截止日期前后的题目表现分析、通过屏蔽补全进行的记忆测试、置信度分析(模型往往对它们训练过的材料表现出异常的自信)。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates