AI 基准测试究竟衡量了什么(以及为什么你不该迷信排行榜)
当 GPT-4o、Claude 3.5 Sonnet 和 Llama 3.1 405B 在 MMLU 上的得分都在 88–93% 之间时,这个数字究竟能告诉你该部署哪种模型?令人不安的答案是:几乎什么也说明不了。曾经能区分优秀模型与平庸模型的基准测试已经饱和。每个前沿模型都能在测试中取得优异成绩,但它们在生产环境中的表现却大相径庭。基准测试表现与实际效用之间的差距从未如此之大,理解其中的原因对于任何基于 LLM 构建的工程师来说都至关重要。
基准测试之所以显得严谨,是因为它们产生了数字。数字看起来像测量,而测量看起来像真理。但基准测试分数的合法性完全取决于它所测量内容的有效性——而这种有效性往往会以排行榜上鲜有提及的方式崩溃。
古德哈特定律已经波及 MMLU
1975 年,经济学家 Charles Goodhart 提出了后来被称为古德哈特定律(Goodhart's Law)的观点:当一个指标变成目标时,它就不再是一个好的指标了。AI 基准测试现在就是一个教科书般的例子。
MMLU (Massive Multitask Language Understanding) 成了评估模型综合知识的事实标准。实验室在新闻稿中引用它,投资者询问它。逐渐地,优化 MMLU 表现本身变成了一个竞争目标。模型在基准测试上的表现变好了——不一定是因为它们变得更强大了,而是因为训练流水线与基准测试内容之间的重叠越来越多。
到 2024 年中期,MMLU 的区分能力实际上已经崩溃。顶级模型都聚集在一个狭窄的范围内,得分差异小于提示词格式(prompt formatting)引入的测量噪声。这并非臆测——改变答案选项的呈现方式(例如,从 (A) 改为 [A]),在同一模型上会产生约 5% 的准确率波动。5% 的格式人为误差比排行榜上许多竞争模型之间的差距还要大。
MMLU-Pro 旨在解决这个问题,它扩展到了 12,000 个更难的问题,并将答案选项从 4 个增加到 10 个。这争取到了两年的时间。到 2025 年底,前沿模型在 MMLU-Pro 上的得分也聚集在了 88–90% 的范围内。
这是一个规律,而非偶然。基准测试会趋于饱和。该领域转向更难的基准测试,而这些基准测试又会更快饱和,因为实验室现在的优化力度更大了。静态基准测试存在结构性的半衰期问题。
数据污染被低估且未得到应有的重视
当一个基准测试问题出 现在模型的训练数据中时,模型展示的不是理解能力,而是记忆能力。这就是数据污染,它比公开基准报告所暗示的要普遍得多。
2024 年对 30 个模型的一项分析发现,只有 9 个模型报告了对训练集-测试集重叠的测量。这意味着其他 21 个模型发布的基准测试分数并没有披露测试数据是否已经泄露到训练中。对数学推理基准测试的研究发现,在 31 个分析的模型中存在广泛的污染。
激励结构解释了这种差距。基准测试分数被用作营销手段。自愿披露你的基准测试表现可能因污染而虚高,这并不是一个吸引人的声明。目前缺乏强制执行机制。想要进行干净对比的研究人员基本上只能对实验室给出的数字听之任之。
即使污染不是故意的,它也会发生。现代 LLM 在海量的网络抓取数据集上进行训练。流行的基准测试在网上被广泛讨论、引用和转载。这种重叠并不总是刻意的——在使用当前的数据流水线时,这往往是不可避免的。诚实的做法是进行严格的污染报告;而常见的做法则是保持沉默。
多项选择题格式引入了特有的偏差
LLM 评估的很大一部分依赖于多项选择题。这种格式在操作上很方便:自动评分、问题可复现、结果易于比较。但它也引入了从业者很少考虑的微妙偏差。
多项选择题评估奖励的是选项排除而非知识。一个对某个话题几乎一无所知的模型,仍可以通过识别不合理的干扰项,表现出高于随机水平的水平。在大规模应用中,这会以无法转化为开放式任务的方式虚增分数。
更具破坏性的是 BBQ 偏见评估案例:这是一个广为引用的衡量模型偏见的基准测试。在一次评估中,模型在简单拒绝回答模糊问题时获得了完美的偏见分数——根据评分标准,这在技术上是正确的,但对于评估实际的偏见行为完全没有意义。该基准测试测量的是拒绝率,而不是偏见。指标看起来很好,但被评估的能力却名不副实。
这是更深层次问题的一个版本:多项选择题分数是你真正关心的能力的代理指标,而代理指标与实际能力之间的距离在不同领域、模型系列和部署背景下差异巨大。
第三方框架并非免费午餐
对实验室报告的单个数据产生怀疑,最自然的反应是依赖第三方评估框架。HELM、BIG-bench 等框架的建立是为了提供独立、标准化的对比。它们确实有所帮助,但也引入了自身的失效模式。
BIG-bench 通过社区贡献发展到了 204 个任务。广泛性是其特色——覆盖了广泛的能力范围。但也带来了严重的实际问题:贡献的评估任务中存在 Bug、质量参差不齐,且计算负担使得全面评估变得昂贵得令人望而却步。更根本的是,由于任务来自具有不同标准的许多不同贡献者,聚合后的分数并不具备连贯的解释性。
HELM 采取了相反的方法:专家策划、自顶向下设计。但这造成了另一个问题——该框架无法适应模型特定的设计选择。具有特定输入格式或提示词惯例的模型在僵化的统一模式下无法得到公平的评估。迭代周期被拉长到数月之久。当模型更 新时,评估工作远滞后于模型进度。
两种方法都未能解决根本挑战:设计一种既能标准化(以便对比有效)、又全面(以便覆盖有意义)、且在实践中可行(以便能跟上模型开发的速度)的评估方案。
人类评估的实际代价
当自动化基准测试力有不逮时,人类评估填补了空白。人类评分者的 A/B 测试、红队测试、偏好标注——这些感觉更直接,因为它们涉及人类对真实输出的判断。但权衡的代价是巨大的。
人类评估引入了评估者差异。不同的评分者有不同的质量阈值、不同的领域知识,以及对于什么算是有用与有害的不同偏见。一个评分者的“无害”判断可能是另一个评分者的“有害”判断。跨评估者聚合可以消除部分噪声,但无法消除根本的主观性。
有用性(Helpfulness)与无害性(Harmlessness)之间的张力尤为尖锐。拒绝回答总是无害的——模型没有产生任何有害内容,因为它什么也没产生。这在红队测试场景中造成了评估者对“过度拒绝”的系统性偏好。拒绝一切的模型在安全基准测试中得分很高。但它是否真的有用则是另一回事。
对于高风险领域——国家安全风险、生物安全、关键基础设施——红队评估需要具备真正专业知识的领域专家。这些专家稀缺、昂贵,且在测试期间重现受控信息时可能面临法律上的模糊性。评估问题变成了安全审查(Security Clearance)问题。
