跳到主要内容

AI 基准测试究竟衡量了什么(以及为什么你不该迷信排行榜)

· 阅读需 12 分钟
Tian Pan
Software Engineer

当 GPT-4o、Claude 3.5 Sonnet 和 Llama 3.1 405B 在 MMLU 上的得分都在 88–93% 之间时,这个数字究竟能告诉你该部署哪种模型?令人不安的答案是:几乎什么也说明不了。曾经能区分优秀模型与平庸模型的基准测试已经饱和。每个前沿模型都能在测试中取得优异成绩,但它们在生产环境中的表现却大相径庭。基准测试表现与实际效用之间的差距从未如此之大,理解其中的原因对于任何基于 LLM 构建的工程师来说都至关重要。

基准测试之所以显得严谨,是因为它们产生了数字。数字看起来像测量,而测量看起来像真理。但基准测试分数的合法性完全取决于它所测量内容的有效性——而这种有效性往往会以排行榜上鲜有提及的方式崩溃。

古德哈特定律已经波及 MMLU

1975 年,经济学家 Charles Goodhart 提出了后来被称为古德哈特定律(Goodhart's Law)的观点:当一个指标变成目标时,它就不再是一个好的指标了。AI 基准测试现在就是一个教科书般的例子。

MMLU (Massive Multitask Language Understanding) 成了评估模型综合知识的事实标准。实验室在新闻稿中引用它,投资者询问它。逐渐地,优化 MMLU 表现本身变成了一个竞争目标。模型在基准测试上的表现变好了——不一定是因为它们变得更强大了,而是因为训练流水线与基准测试内容之间的重叠越来越多。

到 2024 年中期,MMLU 的区分能力实际上已经崩溃。顶级模型都聚集在一个狭窄的范围内,得分差异小于提示词格式(prompt formatting)引入的测量噪声。这并非臆测——改变答案选项的呈现方式(例如,从 (A) 改为 [A]),在同一模型上会产生约 5% 的准确率波动。5% 的格式人为误差比排行榜上许多竞争模型之间的差距还要大。

MMLU-Pro 旨在解决这个问题,它扩展到了 12,000 个更难的问题,并将答案选项从 4 个增加到 10 个。这争取到了两年的时间。到 2025 年底,前沿模型在 MMLU-Pro 上的得分也聚集在了 88–90% 的范围内。

这是一个规律,而非偶然。基准测试会趋于饱和。该领域转向更难的基准测试,而这些基准测试又会更快饱和,因为实验室现在的优化力度更大了。静态基准测试存在结构性的半衰期问题。

数据污染被低估且未得到应有的重视

当一个基准测试问题出现在模型的训练数据中时,模型展示的不是理解能力,而是记忆能力。这就是数据污染,它比公开基准报告所暗示的要普遍得多。

2024 年对 30 个模型的一项分析发现,只有 9 个模型报告了对训练集-测试集重叠的测量。这意味着其他 21 个模型发布的基准测试分数并没有披露测试数据是否已经泄露到训练中。对数学推理基准测试的研究发现,在 31 个分析的模型中存在广泛的污染。

激励结构解释了这种差距。基准测试分数被用作营销手段。自愿披露你的基准测试表现可能因污染而虚高,这并不是一个吸引人的声明。目前缺乏强制执行机制。想要进行干净对比的研究人员基本上只能对实验室给出的数字听之任之。

即使污染不是故意的,它也会发生。现代 LLM 在海量的网络抓取数据集上进行训练。流行的基准测试在网上被广泛讨论、引用和转载。这种重叠并不总是刻意的——在使用当前的数据流水线时,这往往是不可避免的。诚实的做法是进行严格的污染报告;而常见的做法则是保持沉默。

多项选择题格式引入了特有的偏差

LLM 评估的很大一部分依赖于多项选择题。这种格式在操作上很方便:自动评分、问题可复现、结果易于比较。但它也引入了从业者很少考虑的微妙偏差。

多项选择题评估奖励的是选项排除而非知识。一个对某个话题几乎一无所知的模型,仍可以通过识别不合理的干扰项,表现出高于随机水平的水平。在大规模应用中,这会以无法转化为开放式任务的方式虚增分数。

更具破坏性的是 BBQ 偏见评估案例:这是一个广为引用的衡量模型偏见的基准测试。在一次评估中,模型在简单拒绝回答模糊问题时获得了完美的偏见分数——根据评分标准,这在技术上是正确的,但对于评估实际的偏见行为完全没有意义。该基准测试测量的是拒绝率,而不是偏见。指标看起来很好,但被评估的能力却名不副实。

这是更深层次问题的一个版本:多项选择题分数是你真正关心的能力的代理指标,而代理指标与实际能力之间的距离在不同领域、模型系列和部署背景下差异巨大。

第三方框架并非免费午餐

对实验室报告的单个数据产生怀疑,最自然的反应是依赖第三方评估框架。HELM、BIG-bench 等框架的建立是为了提供独立、标准化的对比。它们确实有所帮助,但也引入了自身的失效模式。

BIG-bench 通过社区贡献发展到了 204 个任务。广泛性是其特色——覆盖了广泛的能力范围。但也带来了严重的实际问题:贡献的评估任务中存在 Bug、质量参差不齐,且计算负担使得全面评估变得昂贵得令人望而却步。更根本的是,由于任务来自具有不同标准的许多不同贡献者,聚合后的分数并不具备连贯的解释性。

HELM 采取了相反的方法:专家策划、自顶向下设计。但这造成了另一个问题——该框架无法适应模型特定的设计选择。具有特定输入格式或提示词惯例的模型在僵化的统一模式下无法得到公平的评估。迭代周期被拉长到数月之久。当模型更新时,评估工作远滞后于模型进度。

两种方法都未能解决根本挑战:设计一种既能标准化(以便对比有效)、又全面(以便覆盖有意义)、且在实践中可行(以便能跟上模型开发的速度)的评估方案。

人类评估的实际代价

当自动化基准测试力有不逮时,人类评估填补了空白。人类评分者的 A/B 测试、红队测试、偏好标注——这些感觉更直接,因为它们涉及人类对真实输出的判断。但权衡的代价是巨大的。

人类评估引入了评估者差异。不同的评分者有不同的质量阈值、不同的领域知识,以及对于什么算是有用与有害的不同偏见。一个评分者的“无害”判断可能是另一个评分者的“有害”判断。跨评估者聚合可以消除部分噪声,但无法消除根本的主观性。

有用性(Helpfulness)与无害性(Harmlessness)之间的张力尤为尖锐。拒绝回答总是无害的——模型没有产生任何有害内容,因为它什么也没产生。这在红队测试场景中造成了评估者对“过度拒绝”的系统性偏好。拒绝一切的模型在安全基准测试中得分很高。但它是否真的有用则是另一回事。

对于高风险领域——国家安全风险、生物安全、关键基础设施——红队评估需要具备真正专业知识的领域专家。这些专家稀缺、昂贵,且在测试期间重现受控信息时可能面临法律上的模糊性。评估问题变成了安全审查(Security Clearance)问题。

转向自定义评估基础设施

针对这些局限性的实际应对方案,特别是在生产环境中,是构建自定义评估基础设施,而非依赖公共基准测试。这现在已成为超越玩具级部署(Toy Deployments)的组织中的主流方法。

自定义评估基于生产数据和实际失效模式构建。如果你正在构建法律文档助手,你的评估集应该来自法律文档——你的用户遇到的真实边缘案例、你在生产中诊断出的失效模式,而不是法学院入学考试的多选题。你关心的内容与通用基准测试衡量的内容之间的差距太大了。

实践中行之有效的工作流是一个闭环:

  • 离线评估:在部署前,针对候选模型变更运行策划好的测试套件。捕捉回归问题。测试应用程序所依赖的特定能力。
  • 影子测试和金丝雀测试:将一小部分真实流量导向新模型,将输出与基准模型进行对比,并根据反映实际用户成果的指标进行衡量。
  • 生产监控:跟踪实时性能随时间的变化。检测漂移。捕捉揭示了评估套件未覆盖能力缺口的异常值。

这不是基准测试的替代品,而是一种补充。公共基准测试对于初始模型选择和粗略的能力对比仍然有用。自定义评估才是真正能告诉你模型是否适用于你的应用程序的工具。

实际差距是显著的:与仅依赖公共基准测试分数的团队相比,针对其特定用例进行系统性评估的组织,其生产环境下的故障率大幅下降。

如何批判性地阅读基准测试声明

在评估科学成熟之前,正确的态度是系统性的怀疑,而非全然否定基准测试。

在引用分数之前先询问方法论。 Prompt 是如何处理的?是否使用了 Few-shot 示例?思维链(Chain-of-thought)?这里的不同选择可能会使结果产生 10 个百分点或更多的偏差。没有方法论文档的基准测试分数不是基准测试分数——它只是一个数字。

检查基准测试到底衡量的是什么。 MMLU 衡量多选题知识召回。HumanEval 衡量竞赛类问题的算法实现。SWE-bench 衡量在真实 GitHub Issue 上的表现。这些是不同的能力。在其中一项上的高性能并不代表在其他项上也同样出色。

寻找数据污染披露。 如果实验室声称在某项基准测试上达到了业界领先(State-of-the-art)水平,但没有披露任何训练集与测试集的重叠分析,请谨慎对待该数字。未披露并不等同于数据污染的证据,但它削弱了可信度。

对特定任务基准测试的权重应高于通用基准测试。 SWE-bench 比 MMLU 更能体现编程能力。GPQA 更能体现科学推理能力。通用基准测试对覆盖范围有用;领域特定基准测试则更适合能力评估。

将排行榜排名视为起点,而非结论。 任何排行榜上的前三名模型在你的工作负载上的表现可能各不相同。利用公共基准测试将选择范围缩小到一个短名单,然后在你自己的数据上进行评估。

更严峻的事实

根本问题在于评估科学的发展未能跟上模型开发的步伐。模型在飞速进步,而用于严谨衡量其能力的底层设施改进却相对缓慢。治理框架、采购决策和部署选择目前正基于那些已知存在有效性问题的基准进行——仅仅是因为这些是目前仅有的基准。

这并非在鼓吹对基准测试的虚无主义。一些基准的构建质量优于其他基准。有些则更能抵抗数据污染。动态和对抗性基准——即在评估时即时生成问题——比静态基准更难被钻空子。与代理任务相比,那些需要真实领域知识、基于专家的评估更具意义。

但是,任何仅因某个模型在公开排行榜上名列前茅便将其部署,而不针对自己的数据进行特定任务评估的从业者,实际上是将关键的工程判断外包给了一个已知存在缺陷的过程。排行榜上的数字只是一个信号——而非准确的衡量。

评估实际衡量的内容取决于它们是如何设计的、包含哪些数据、如何评分,以及它们所代表的能力是否与你所关心的能力相匹配。针对你所依赖的每一个基准,厘清这四个问题,是一项虽不光鲜但却至关重要的工作,它正是可靠的 AI 工程与盲目追逐基准之间的区别。

References:Let's stay in touch and Follow me for more thoughts and updates