模型迁移的双重账单:被忽视的评测重锚税
每次模型升级都会被当作一种简单的“替换”推销给团队:一行配置更改、在延迟、成本或质量上可衡量的提升,以及几天用于吸收新模型怪癖的提示词微调。采购方案展示了每 token 的差值,工程工单列出了发布阶段,FP&A 团队预记了季度节省。接着,评估分值出炉,却没人认得出来。质量在理应提升的地方毫无波动。曾经达成一致的两个评分员现在分歧达 10 分之多。快照套件显示为红色,但差异看起来只是措辞调整。站会上有人提出了那个本应从迁移计划第一天就该出现的问题:模型到底是在针对什么评分?
这是第二张账单 —— 评估重锚税 (eval re-anchoring tax) —— 且它往往比第一张更昂贵。人工标注的参考分数锚定在旧模型的输出分布上。作为评委的 LLM 评分器针对旧模型的失败模式进行了校准。快照固定装置捕捉的是旧模型的措辞。团队对“优质输出”的直觉是基于旧模型的风格特征训练出来的。在模型替换中,这些都无法完好无损地保留下来。
那些将模型迁移仅视为每 token 差价的团队,注定会在下个季度被劳动力成本惊到 。而经历过两次迁移的团队知道,评估系统是与模型耦合的配置,切换模型本质上是一个附带评审账单的配置更改。
更换模型时会失效的四个锚点
一个生产环境的评估系统并非单一产物。它至少包含四个部分,且每一个都默默地锚定在构建它时所针对的模型上。
人工标注的参考分数。 当标注员在三个月前将某个输出的连贯性评为 4 分(满分 5 分)时,他们是针对旧模型输出的隐含分布进行评分的。新模型的输出处于该分布的不同区域 —— 通常是因为模型变得更冗长、或更简洁、列表格式不同,或者使用了不同的限定词进行回避。参考分数无法直接迁移。曾经针对“模型 A 的合格标准”进行评分的标注员,需要针对“模型 B 的合格标准”重新校准,而在产出任何新标签之前,这种重新校准就需要每位标注员花费数小时的工作。
LLM 作为评委的校准。 过去一年的研究不断证明同一个观点:评委缺乏自然的数值校准,7 分(满分 10 分)的含义取决于被评审的模型、评委自身的版本、提示词措辞以及日期。模型版本间的校准漂移现在已有充足记录,以至于“评委是稳定的”这一假设已不再成立。更糟糕的是:当评委和生成器属于同一家族时(例如 Claude 评审另一个 Claude,OpenAI 模型评审另一个 OpenAI 模型),自我偏好偏见 (self-preference bias) 会悄然潜入,而改变这一组合中任何一方的迁移,都可能系统性地改变分数,而这与质量毫无关系。
快照测试固定装置。 快照套件假设“等效输出”意味着“除了空格外,字面上完全相同的字符串”。模型迁移几乎总是打破这一假设。新模型在结构上等效的答案会使用不同的措辞、不同的句子顺序、不同的列表样式。每个快照都变成了差异 (diff)。团队要么重写每个固定装置(成本高昂,且会让套件重新锚定到新模型上,失去了与旧模型的对比),要么将快照匹配削弱为语义检查(这消除了套件原本要提供的回归防护)。
团队直觉。 这是最难显现且重建成本最高的一项。在观察了六个月的模型输出后,评审员了解它的特征:它如何回避问题、它如何屈服于某种特定的质疑、它幻觉出函数签名的具体方式。这种直觉存在于团队成员的脑海中,而在新模型上,它是错误的。在切换后的前三周,团队仍在使用旧的思维模型进行判断,他们在提示词修改上的 PR 评审会出现细微的校准偏差。
意外季度的剖析
批准迁移的采购对话通常是这样的:每 token 价格下降了多少百分比,延迟提升了多少百分比,供应商发布了看起来很不错的基准测试数据,团队承诺了一个日期。而那张无人定价的账单会在接下来的两个季度里以劳动力成本的形式出现:
- 针对新模型的分布,对评估集的代表性样本进行重新标注
- 针对新鲜的人工参考,校准每个 LLM 评委
- 重写或削弱快照固定装置
- 运行并行评估期,让两个模型对相同的输入进行评分
- 调查差异案例,并决定哪个模型的答案实际上是正确的
- 重新校准团队的思维模型 —— 这种不会出现在 Jira 工单上的软技能
- https://www.langchain.com/articles/llm-as-a-judge
- https://deepchecks.com/llm-judge-calibration-automated-issues/
- https://arxiv.org/html/2508.06225v2
- https://arxiv.org/html/2311.11123v2
- https://www.evidentlyai.com/blog/llm-regression-testing-tutorial
- https://www.breakthebuild.org/prompt-regression-testing-101-how-to-keep-your-llm-apps-from-quietly-breaking/
- https://www.statsig.com/perspectives/slug-prompt-regression-testing
- https://www.braintrust.dev/articles/ab-testing-llm-prompts
- https://www.traceloop.com/blog/the-definitive-guide-to-a-b-testing-llm-models-in-production
- https://www.godaddy.com/resources/news/calibrating-scores-of-llm-as-a-judge
- https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- https://www.patronus.ai/llm-testing
