模型指标卡的基准测试:当你的合同引用该数字时,其方法论已发生偏移
你的采购团队在上个季度续约了推理合同,并带着一丝自得地注意到,引用“HumanEval pass@1 达到 84%”的质量条款已被供应商最新的模型卡(model card)轻松超越,现在报告的数值是 87%。提高了三个百分点。条款已达成。合作关系很稳健。与此同时,你推理团队自己的回归测试集——那个真正运行你产品所依赖的任务的测试集——显示自模型更新发布以来,在留出法评估案例上出现了 2% 的下降。这两个数字都是真实的,但合同里只写了其中一个。
这就是当营销产物在法律文件中承重时的情况。模型卡上的基准测试数字只是测量结果的标题;而产生该数字的方法论则是附录中的一个注脚,合同审查链上的任何人都不会去读它。当供应商更改方法论时——从贪婪解码(greedy decode)切换到三选一采样(best-of-three sampling),添加结构化输出系统消息,或者更换提示词模板以匹配模型新的聊天微调——数字的变动与你的实际流量毫无关系,而与数字的计算方式息息相关。你的合同条款引用了该数字,而对方则掌控着产生该数字的协议。你签署了一个对方可以在不违约的情况下修改其含义的条款。
