跳到主要内容

你的供应商模型卡没有告诉你的事

· 阅读需 11 分钟
Tian Pan
Software Engineer

模型卡会告诉你该模型在 MMLU 上得分 88.7 分。但它不会告诉你:该模型会系统性地将责任归咎于可能性列表中最先出现的技术,导致约 10% 的归因答案在事实正确的情况下语义却是错误的。它不会告诉你:在系统提示中加入"你是一个有帮助的助手",与留空系统提示相比,会降低结构化推理任务的性能。它不会告诉你:在高负载下第 99 百分位延迟是中位数的 4 倍,也不会告诉你:模型在法律和金融查询上的行为,会因你是否包含合规免责声明而发生明显变化。

这些内容都不在模型卡里。你需要将系统部署到生产环境,然后亲眼看着问题出现,才能学到这些。

模型卡是披着技术文档外衣的营销材料。研究结论并不含糊:对公开模型中心数以千计模型卡的实证研究表明,尽管有关于应披露内容的大量指导方针,公平性和局限性信息在实际模型卡中"几乎不存在"。一项研究检验的 24 个主要基准评估中,有 14 个没有进行多次评估或报告统计显著性。而那些对生产工程师最重要的部分——尾部行为、系统提示交互、文化边缘情况、故障模式特征——系统性地缺失。

那些可靠地发布 AI 产品的团队已经以艰难的方式认识到了这一点。他们不再期望供应商文档能告诉他们所需的信息,而是开始构建内部行为简报:一份与代码库并行维护的动态文档,记录团队通过实证方式学到的关于特定模型在特定部署场景下如何运行的知识。

基准测试的幻觉

模型卡描述的是平均性能。而生产系统关心的是尾部表现。

当供应商在某项基准测试上发布 92% 准确率时,这个数字是所有测试用例的均值。它没有告诉你那失败的 8% 是什么情况:那些失败是随机噪声还是某类系统性输入,是否集中在特定领域或输入格式上,失败时是给出一个不确定的答案,还是自信地输出听起来合理却错误的内容。

真实用户会找到基准测试从未涵盖的边缘情况。一个在 MMLU 多项选择题上表现完美的模型,仍然可能在需要相同底层知识的多步自然语言指令上失败。基准测试格式施加了一种结构,模型在评估期间会加以利用,但用户并不会提供这种结构。一个从事银行客户支持的团队发现,他们模型所记录的事实准确率数字,对预测生产故障率几乎毫无用处——真实客户用基准测试语料库从未涵盖的习语和隐含语境来提问。

第 95 和第 99 百分位的情况正是那些产生支持工单并侵蚀用户信任的案例。部分输入会持续得到更差的处理结果。模型卡无法让你预测哪些输入对你的特定工作负载会产生这种情况。

静默回归与那次你从未听说的更新

当你的 API 供应商发布模型更新时,你的生产系统会立即接受更新,没有任何警告,部署日志中也不会留下任何变更记录。

这就是静默回归问题。追踪模型更新中行为漂移的研究记录了主要 API 模型在季度更新中发生的显著行为变化,同时影响指令遵循、事实性、语气和详细程度。这些不是微小扰动。一项研究发现,67% 的使用第三方 LLM API 的企业在十二个月内经历了可测量的服务中断——其中大多数被追溯到未记录的模型更新。

Meta Maverick 案例成为一个有据可查的例子:某模型的公开可下载版本与 API 托管版本的行为完全不同,托管版本表现出截然不同的风格行为,包括大量使用表情符号和冗长的回复。相同的模型名称,不同的行为。没有任何文档对此发出警告。

你的提示词是针对上个月存在的模型调优的。而你的系统今天正在与之对话的模型已悄悄更新。你花了六周时间调好的校准现在可能已经失效。你会在用户开始抱怨时发现这一点,而不是从发布说明中得知。

没有人记录的系统提示效果

关于系统提示,模型卡从未提及的一点是:它们不是中立的配置。它们是主动输入,会以非线性方式改变模型行为,并与模型执行的其他所有操作相互作用。

关于系统提示位置如何影响模型行为的研究发现,放置在系统提示与用户回合中的人口统计信息,会导致模型对所描述群体表达更负面的情感,并在资源分配任务上产生与基线行为更大的偏差。相同的信息,放置在提示栈的不同位置,会产生系统性不同的输出。

一个更违反直觉的发现是:在系统提示中加入"你是一个有帮助的助手"并不能改善性能,反而可能降低性能。开源模型对模型卡从未表征的提示格式变化表现出极度敏感性。如果你的系统提示包含合规免责声明,预期模型在法律查询上的行为会与不包含时不同——不是因为你指示了不同的行为,而是因为模型已经学会了将这种框架与某些回应模式相关联。

这意味着你无法脱离预期的系统提示单独评估一个模型。在没有系统提示的情况下取得的基准分数,几乎无法告诉你模型在你的应用程序中会如何表现。然而模型卡基准测试几乎从不指定评估期间使用的系统提示。

文档中的文化盲点

模型卡通常包含简短的公平性披露。它们几乎从不包含关于模型在非西方文化语境、边缘化方言或特定领域文化知识差距上行为的具体描述。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates