跳到主要内容

模型卡没告诉你的是:公开基准测试与实际工作负载之间的生产差距

· 阅读需 12 分钟
Tian Pan
Software Engineer

模型卡显示代码生成准确率为 89%。你的团队在实际代码库上只得到了 28%。模型卡显示有 100K token 的上下文窗口。而在你的文档工作负载下,性能在 32K 时就大幅下降。模型卡通过了红队安全评估。但在上线后的 72 小时内,针对用户的提示词注入攻击就出现了。

这种差距并不罕见。这已成为常态。在 2025 年对 1,200 个生产部署的分析中,42% 的公司在生产集成阶段放弃了他们的 AI 计划 —— 高于前一年的 17%。他们中的大多数都仔细阅读过模型卡。

问题不在于模型卡撒谎。而在于它们衡量的内容与你需要了解的内容不同。准确理解这一差距 —— 并构建内部基准测试套件来弥补它 —— 是交付可靠 AI 的团队与交付懊悔的团队之间的分水岭。

模型卡实际衡量的是什么

模型卡最初被设计为透明度产物:关于模型预期用途、训练数据来源、评估结果和已知局限性的标准化文档。Google 研究人员在 2018 年提出的原始框架旨在为从业者提供足够的信息,以便做出负责任的部署决策。

它们实际包含的内容:在一组为展示能力而精心挑选的基准测试上的表现,使用最高级的工程脚手架(few-shot 示例、思维链提示、自洽性采样)进行评估,数据集经过清洗和平衡以匹配评估设置,在单一时间点,运行在模型提供商控制的硬件上。

你将要部署的内容:zero-shot 或极简提示词的生产流量,处理你杂乱的数据,在你基础设施支持的规模下,在没有任何基准测试环境能模拟的负载模式下,服务于评估数据集可能代表性不足的用户群体。

这些差异中的每一项都会叠加。当差距累积起来时,在合成基准测试中得分 89% 的模型,在真实的类级(class-level)代码任务中仅能生成 28–34% 的正确输出 —— 研究人员通过将相同模型在类生产代码库与合成测试套件上运行,直接测量出了 3 倍的差距。

致命生产部署的四个差距

上下文长度退化

广告中宣称的 100K 或 200K token 上下文窗口报告的是极限,而不是性能平稳期。实际曲线与到达极限前的平直直线完全不同。

在 2024 年研究中测试的 18 个前沿模型中,随着输入长度增加,性能下降了 13.9–85% —— 即使检索是完美的。特定模型显示了有据可查的“断崖”:Llama 3.1 405B 在 32K token 后开始退化,GPT-4-0125-preview 在 64K 后退化。一项基准测试发现,Claude 3 Sonnet 的版权失效(failure)率从 16K token 时的 3.7% 跳升到 32K 时的 21%,再到 64K 时的 49.5% —— 在许多团队认为“属于上下文窗口内”的范围内增加了 13 倍。

其机制是注意力稀释。100K token 的上下文需要模型维持 100 亿个成对的注意力关系。“迷失在中间”(lost in the middle)效应已得到充分证实:模型能可靠地关注上下文开头和结尾的内容,但会忽略中间的内容,对于埋藏在长文档中的材料,准确率下降幅度超过 30%。

生产意义:如果你的应用涉及长文档、多轮对话或可能将上下文推过 32K–64K token 的检索,你需要在决定使用某个模型之前,在实际的 token 分布下衡量性能。标称“128K 上下文”的模型卡无法告诉你模型在 60K 时的表现。

人口统计学和语言子群差距

模型卡报告的是综合准确率。综合准确率隐藏了错误分布的情况。

医疗多模态模型发布了总体准确率得分,但没有报告不同患者群体之间的性能差异。在医疗保健领域部署的视觉语言模型在不同人口群体中显示出相似的基准测试得分,但在生产环境中,对于代表性不足的患者群体,其产出的结果系统性地更差。在综合多语言基准测试中得分很高的语言模型,在 CJK、阿拉伯语和印地语脚本中表现出 3–8 倍的分词成本,且质量明显较低 —— 这些差距在标题指标中并未体现。

问题在于方法论:大多数公共基准测试都是由西方、英语、受过良好教育的来源组建的。在 MMLU 上得分 85% 的模型是针对特定分布进行优化的。如果你的用户不属于该分布,那个数字对你来说就没有意义。

这不是多样性争论 —— 而是校准争论。如果你的用户中有 30% 是非英语母语者,或者你的产品涉及具有自身术语分布的医疗、法律或金融领域,那么模型卡的基准测试得分是从一个与你所服务的群体不同的群体中提取的样本。

拒绝模式的不稳定性

基准测试红队对抗(Benchmark red-teaming)与生产环境中的对抗行为并不是同一个问题。

模型卡片(Model cards)上的安全性评估衡量的是在受控环境下,针对已知对抗性提示词集的拒绝率。生产环境中的对抗行为源于真实用户实时探测真实系统。2024 年 NeurIPS 的一项研究发现,当前大语言模型(LLM)的拒绝行为是由模型激活中的单一方向介导的——而消融(ablating)这一方向会完全禁用拒绝机制——这一点在任何模型卡片上都没有被提及。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates