模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移

2026年6月3日 · 阅读需 12 分钟

Software Engineer

你的采购团队在上个季度续约了推理合同，并带着一丝自得地注意到，引用“HumanEval pass@1 达到 84%”的质量条款已被供应商最新的模型卡（model card）轻松超越，现在报告的数值是 87%。提高了三个百分点。条款已达成。合作关系很稳健。与此同时，你推理团队自己的回归测试集——那个真正运行你产品所依赖的任务的测试集——显示自模型更新发布以来，在留出法评估案例上出现了 2% 的下降。这两个数字都是真实的，但合同里只写了其中一个。

这就是当营销产物在法律文件中承重时的情况。模型卡上的基准测试数字只是测量结果的标题；而产生该数字的方法论则是附录中的一个注脚，合同审查链上的任何人都不会去读它。当供应商更改方法论时——从贪婪解码（greedy decode）切换到三选一采样（best-of-three sampling），添加结构化输出系统消息，或者更换提示词模板以匹配模型新的聊天微调——数字的变动与你的实际流量毫无关系，而与数字的计算方式息息相关。你的合同条款引用了该数字，而对方则掌控着产生该数字的协议。你签署了一个对方可以在不违约的情况下修改其含义的条款。

基准测试是测量结果，而非属性

大多数采购语言反映出的直觉是，基准测试分数是模型的一个属性——就像它的参数量或上下文窗口大小一样。引用这个数字，锁定质量，然后继续。但基准测试分数是测量的结果，而测量是有协议（protocol）的。HumanEval pass@1 达到 84% 是“该模型在这些 164 个问题上进行评估，以这种方式提示，用这种策略解码，按这种标准评分，在 84% 的尝试中生成了正确代码”的缩写。该句子中“该模型”之后的所有条款都是这个数字的一部分。更改其中任何一项，相同的模型权重就会产生不同的分数。

这种差异并非学术层面的。在没有任何方法论变更介入之前，即使在 temperature 为 0 的情况下，同一模型在同一基准测试上的单次运行 pass@1 估计值在不同运行之间也会有 2 到 6 个百分点的波动，标准差超过 1.5 个点。从贪婪解码切换到三选一采样，你可以在不触碰权重的情况下将 pass@1 提高 5 到 10 个点。在提示词中加入 few-shot 示例，你会进一步提高它。使用匹配模型首选格式的聊天微调模板，你会提高得更多。HumanEval+ 使用相同的问题但更严格的测试用例，将 GPT-4 的分数从 88.4% 降至 76.2%——这仅仅是因为在“什么算作通过的解决方案”这一方法论选择上有所不同，就产生了 12 个点的差距。

供应商知道这一点。模型卡知道这一点。技术报告第 17 页的注脚也知道这一点。而在大多数情况下，采购合同并不知道。

方法论漂移不是漏洞——它是数字被允许变动的方式

一个令人不安的观察是，供应商在结构上有一种动力，即朝着新模型训练所优化的方向去演进评估方法论。一个针对结构化输出进行过微调的模型，在要求结构化输出的提示词下进行评估，其得分将高于在原始非结构化提示词下评估的相同模型。一个在聊天模板上训练过的模型，在使用该聊天模板进行评估时，其得分将高于不使用该模板的情况。这些都不是欺诈。模型卡通常在注脚中、有时在附录中、偶尔在主页链接的独立方法论文档中公开这些变更。公开行为履行了义务。标题数字发生了变动。这两个事实是各自成立的。

在实践中，这意味着模型卡上的基准测试数字最好被理解为：供应商在测量他们想要发布的模型时，选择使用的协议下的测量值。协议是产品的一部分。当协议改变时，数字也会随之改变，且这种改变是有意为之的。模型卡正在完美履行它的设计初衷：在经过追溯调整以适应模型优势的方法论下，有利地展示模型。这不是模型卡系统的缺陷。这是模型卡系统按预期运作，服务于发布营销功能，而这一功能所在的层级恰好比你的合同高出一层。

失败模式在于假设方法论是稳定的。它并不稳定。一个数字在发布新版本时上升了三个点，可能是因为模型变好了。它也可能是因为评估框架（evaluation harness）被调优了。它甚至可能同时因为这两个原因而上升，而每个部分的贡献度并未公开。你的合同条款无法区分这一点，你的采购团队无法区分这一点，而你的模型卡变更追踪器（如果你有的话，大多数团队都没有）必须阅读方法论注脚才能区分，而方法论注脚通常只是埋在 PDF 附录里的一句话。

那些名副其实的合同条款

修复引用基准测试（benchmark）数值的采购条款的方法是，在引用基准时同时注明其版本和评估协议。“HumanEval pass@1 达到 84%” 是一个可以被对方通过更改协议而修改的句子。而 “在 v1.0 评估协议下，采用贪婪解码（greedy decode）、零样本提示（zero-shot prompting）及原始测试用例，HumanEval pass@1 达到 84%” 则是一个无法被随意修改的句子。方法论的锁定（methodology pin）才是承重的条款，数值只是结果。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移

基准测试是测量结果，而非属性

方法论漂移不是漏洞——它是数字被允许变动的方式

那些名副其实的合同条款

Recommended Reading

关于 Tian Pan

基准测试是测量结果，而非属性​

方法论漂移不是漏洞——它是数字被允许变动的方式​

那些名副其实的合同条款​

Recommended Reading

关于 Tian Pan

基准测试是测量结果，而非属性

方法论漂移不是漏洞——它是数字被允许变动的方式

那些名副其实的合同条款