2 篇博文含有标签「model-cards」

模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移

2026年6月3日 · 阅读需 12 分钟

Software Engineer

你的采购团队在上个季度续约了推理合同，并带着一丝自得地注意到，引用“HumanEval pass@1 达到 84%”的质量条款已被供应商最新的模型卡（model card）轻松超越，现在报告的数值是 87%。提高了三个百分点。条款已达成。合作关系很稳健。与此同时，你推理团队自己的回归测试集——那个真正运行你产品所依赖的任务的测试集——显示自模型更新发布以来，在留出法评估案例上出现了 2% 的下降。这两个数字都是真实的，但合同里只写了其中一个。

这就是当营销产物在法律文件中承重时的情况。模型卡上的基准测试数字只是测量结果的标题；而产生该数字的方法论则是附录中的一个注脚，合同审查链上的任何人都不会去读它。当供应商更改方法论时——从贪婪解码（greedy decode）切换到三选一采样（best-of-three sampling），添加结构化输出系统消息，或者更换提示词模板以匹配模型新的聊天微调——数字的变动与你的实际流量毫无关系，而与数字的计算方式息息相关。你的合同条款引用了该数字，而对方则掌控着产生该数字的协议。你签署了一个对方可以在不违约的情况下修改其含义的条款。

被你的采购团队当成数据表的模型卡片

2026年6月2日 · 阅读需 12 分钟

Tian Pan

Software Engineer

模型卡（model card）是一件研究产物。而数据表（datasheet）是一份合同。采购团队通常会像阅读后者一样阅读前者，而交付它的 AI 厂商现在正受限于其工程团队原以为只是叙述性的声明。

这是丢掉续约最干脆利落的方式：你转发了发布在模型索引页上的同一个 PDF，客户的法务团队将其中四句话摘录到了附件 B（Schedule B）中，十二个月后你发现“预期用途：通用问答”已变成关于服务范围的合同陈述。你的团队用 BLEU 分值来衡量这些句子，而他们的团队现在正用违约代价来衡量。

关于 Tian Pan