模型指标卡的基准测试:当你的合同引用该数字时,其方法论已发生偏移
你的采购团队在上个季度续约了推理合同,并带着一丝自得地注意到,引用“HumanEval pass@1 达到 84%”的质量条款已被供应商最新的模型卡(model card)轻松超越,现在报告的数值是 87%。提高了三个百分点。条款已达成。合作关系很稳健。与此同时,你推理团队自己的回归测试集——那个真正运行你产品所依赖的任务的测试集——显示自模型更新发布以来,在留出法评估案例上出现了 2% 的下降。这两个数字都是真实的,但合同里只写了其中一个。
这就是当营销产物在法律文件中承重时的情况。模型卡上的基准测试数字只是测量结果的标题;而产生该数字的方法论则是附录中的一个注脚,合同审查链上的任何人都不会去读它。当供应商更改方法论时——从贪婪解码(greedy decode)切换到三选一采样(best-of-three sampling),添加结构化输出系统消息,或者更换提示词模板以匹配模型新的聊天微调——数字的变动与你的实际流量毫无关系,而与数字的计算方式息息相关。 你的合同条款引用了该数字,而对方则掌控着产生该数字的协议。你签署了一个对方可以在不违约的情况下修改其含义的条款。
基准测试是测量结果,而非属性
大多数采购语言反映出的直觉是,基准测试分数是模型的一个属性——就像它的参数量或上下文窗口大小一样。引用这个数字,锁定质量,然后继续。但基准测试分数是测量的结果,而测量是有协议(protocol)的。HumanEval pass@1 达到 84% 是“该模型在这些 164 个问题上进行评估,以这种方式提示,用这种策略解码,按这种标准评分,在 84% 的尝试中生成了正确代码”的缩写。该句子中“该模型”之后的所有条款都是这个数字的一部分。更改其中任何一项,相同的模型权重就会产生不同的分数。
这种差异并非学术层面的。在没有任何方法论变更介入之前,即使在 temperature 为 0 的情况下,同一模型在同一基准测试上的单次运行 pass@1 估计值在不同运行之间也会有 2 到 6 个百分点的波动,标准差超过 1.5 个点。从贪婪解码切换到三选一采样,你可以在不触碰权重的情况下将 pass@1 提高 5 到 10 个点。在提示词中加入 few-shot 示例,你会进一步提高它。使用匹配模型首选格式的聊天微调模板,你会提高得更多。HumanEval+ 使用相同的问题但更严格的测试用例,将 GPT-4 的分数从 88.4% 降至 76.2%——这仅仅是因为在“什么算作通过的解决方案”这一方法论选择上有所不同,就产生了 12 个点的差距。
供应商知道这一点。模型卡知道这 一点。技术报告第 17 页的注脚也知道这一点。而在大多数情况下,采购合同并不知道。
方法论漂移不是漏洞——它是数字被允许变动的方式
一个令人不安的观察是,供应商在结构上有一种动力,即朝着新模型训练所优化的方向去演进评估方法论。一个针对结构化输出进行过微调的模型,在要求结构化输出的提示词下进行评估,其得分将高于在原始非结构化提示词下评估的相同模型。一个在聊天模板上训练过的模型,在使用该聊天模板进行评估时,其得分将高于不使用该模板的情况。这些都不是欺诈。模型卡通常在注脚中、有时在附录中、偶尔在主页链接的独立方法论文档中公开这些变更。公开行为履行了义务。标题数字发生了变动。这两个事实是各自成立的。
在实践中,这意味着模型卡上的基准测试数字最好被理解为:供应商在测量他们想要发布的模型时,选择使用的协议下的测量值。协议是产品的一部分。当协议改变时,数字也会随之改变,且这种改变是有意为之的。模型卡正在完美履行它的设计初衷:在经过追溯调整以适应模型优势的方法论下,有利地展示模型。这不是模型卡系统的缺陷。这是模型卡系统按预期运作,服务于发布营销功能,而这一功能所在的层级恰好比你的合同高出一层。
失败模式在于假设方法论是稳定的。它并不稳定。一个数字在发布新版本时上升了三个点,可能是因为模型变好了。它也可能是因为评估框架(evaluation harness)被调优了。它甚至可能同时因为这两个原因而上升,而每个部分的贡献度并未公开。你的合同条款无法区分这一点,你的采购团队无法区分这一点,而你的模型卡变更追踪器(如果你有的话,大多数团队都没有)必须阅读方法论注脚才能区分,而方法论注脚通常只是埋在 PDF 附录里的一句话。
那些名副其实的合同条款
修复引用基准测试(benchmark)数值的采购条款的方法是,在引用基准时同时注明其版本和评估协议。“HumanEval pass@1 达到 84%” 是一个可以被对方通过更改协议而修改的句子。而 “在 v1.0 评估协议下,采用贪婪解码(greedy decode)、零样本提示(zero-shot prompting)及原始测试用例,HumanEval pass@1 达到 84%” 则是一个无法被随意修改的句子。方法论的锁定(methodology pin)才是承重的条款,数值只是结果。
- https://mbrenndoerfer.com/writing/humaneval-code-generation-benchmark-pass-at-k
- https://benchmarkingagents.com/what-these-benchmarks-miss/
- https://www.digitalapplied.com/blog/llm-benchmark-methodology-2026-contamination-leaderboard-guide
- https://llm-stats.com/blog/research/what-is-a-contaminated-llm
- https://contractnerds.com/navigating-the-llm-contract-jungle-a-lawyers-findings-from-an-llm-terms-audit/
- https://arxiv.org/html/2510.02611v1
- https://www.langchain.com/articles/llm-evals
- https://mbrenndoerfer.com/writing/benchmark-contamination-llm-detection-mitigation
- https://github.com/EleutherAI/lm-evaluation-harness/
- https://www.buildmvpfast.com/blog/custom-llm-evaluation-framework-benchmark-use-case-2026
