你的准确率提升了,但你的校准崩溃了
一个团队发布了一次提示词重构(prompt refactor)。离线评估显示准确率提高了三个百分点。产品经理(PM)在 Slack 上发布了图表。两周后,支持工单激增,出现了一个没有任何仪表盘记录的模式:用户信任了他们不该信任的答案,并据此采取了行动,结果蒙受了损失。模型比以前更准确了,但对模型的信任却变差了。
这就是“校准崩溃”(calibration collapse)。模型的置信度不再与其错误率相匹配,但由于准确率数字上升了,团队认为他们发布了一个成功的更新。其实不然。他们发布的是一个更加“自信地犯错”的系统,而用户——他们是根据模型的语气(含糊表达、确定性、拒绝回答)而不是他们从未见过的准确率数字来校准信任的——现在在那些被误导后果最严重的查询中被误导了。
准确率(Accuracy)和校准(Calibration)是独立的维度。你可以改变其中一个而不影响另一个。你可以在提高一个的同时摧毁另一个。大多数团队只测量第一个维度并以此为基准发布产品,而大语言模型(LLM)系统中的大多数生产事故都发生在第二个维度上。
为什么校准是用户最关心的维度
一个在每个答案上都有 90% 准确率和 90% 置信度的模型,对于任何具有不对称成本的决策都是无用的。用户无法区分那 10% 的错误和 90% 的正确。对用户来说,每个答案看起来都一模一样:断言式的文字,没有含糊表达,没有拒绝。置信度信号不包含任何信息,因此理性的用户要么信任一切(结果在 10% 的时间里蒙受损失),要么什么都不信任(结果得不到任何价值)。
现在考虑同样 90% 准确率但具有诚实校准的模型。在 50% 的查询中,它说“我很自信”并且 98% 的时间是正确的。在 40% 的查询中,它含糊其辞(“我认为……”、“你应该核实……”)并且 85% 的时间是正确的。在 10% 的查询中,它拒绝回答或提出澄清问题。用户现在可以分配注意力:略读自信的答案,验证含糊的答案,跟进拒绝的请求。同样的准确率数字产生了一个显著更好的产品,因为置信度信号起到了支撑作用。
用户不看你的评估仪表盘。他们根据三个上下文信号来校准信任:语言的含糊程度,模型是否拒绝或提问,以及同一个问题的不同表述是否返回不同的答案。如果这些信号不再与实际的正确性挂钩,信任要么会崩溃(用户不再相信任何答案),要么——更糟糕的是——会产生盲目自动化(用户停止检查,因为过去的答案“听起来很确定”并且是正确的)。
盲目信任的失败模式是引发事故的原因。这就是为什么准确率提高 3% 而校准度下降 40% 对产品来说是净负向的。这也是为什么“发布吧,准确率上升了”是默认的错误回答。
为什么提示词重构会破坏校准
标准的提示工程手册是一个破坏校准的流水线。团队针对准确率评估进行提示词迭代;在 A/B 测试中胜出的提示词是那些产生更果断、更权威输出的提示词。含糊表达(Hedging)被优化掉了,因为在二元正确性评估中,含糊其辞被视为缺乏竞争力,而且在大多数团队使用的“以 LLM 为裁判”(LLM-as-a-judge)的评分器看来,这显得“优柔寡断”。
关于提示词中置信度框架的研究已经明确记录了这种权衡:增强置信度的语言会产生更断言、更流利的输出,并降低大模型的真实可靠性和内部校准。在准确率排行榜上攀升的提示词往往是那些训练模型停止含糊其辞的提示词——包括在那些本来应该含糊其辞的查询中。
RLHF(从人类反馈中强化学习)也在朝同一个方向推动。用于 PPO 的奖励模型显示出对高置信度答案的系统性偏见,而不管其正确性如何;经过 RLHF 微调的模型明显比其 SFT(有监督微调)对应的模型更过度自信,言语表达的置信度集中在量表的顶端。“以 LLM 为裁判”的评分器继承了这种偏见:裁判更看重“答案肯定是 X”而不是“答案可能是 X,尽管 Y 也有可能”,即使含糊的版本更准确。
所以流程是:基础模型默认就过度自信;提示词迭代消除了仅存的含糊表达;裁判给“自信的错误”打分高于“含糊的正确”;准确率指标上升,而可靠性图表扁平化为“确定”附近的一条无用对角线。团队发布了。用户不再有可以参考的含糊信号。
损失发生在评估未覆盖的边缘。准确率是在整个数据集上取平均值的,但校准是关于不确定性存在于何处的函数。一个在简单查询上提高准确率,同时在困难查询上消除含糊表达的重构,在纸面上看起来像是一场胜利,但在生产环境中的表现却像是退化。
除了准确率,还应该测量什么
校准面临着生成式输出普遍存在的测量问题:自由格式的答案没有可以直接与基准事实(ground-truth)标签进行比较的对数概率(log-prob)。你需要改造分类时代的工具。
分桶置信度的预期校准误差(Expected Calibration Error, ECE)。 提示模型在每个答案旁边给出一个言语表达的置信度分数。按置信度十分位数分桶。对于每个桶,计算经验准确率。陈述的置信度与观察到的准确率之间的差距(按桶大小加权)就是你的 ECE。完美的校准会将每个桶都放在对角线上。LLM 发布的 ECE 通常在 0.1 到 0.4 之间——远高于任何下游决策系统所能承受的范围。
特别是可靠性图表(Reliability diagrams)。 为每个桶绘制陈述置信度与经验正确性的关系图。曲线的形状比标量 ECE 更重要:系统性过度自信(曲线弯向对角线下方)与校准不当的尾部(曲线仅在极端处偏离)是不同的失败,它们有不同的修复方法。可靠性图表会让你一眼看出你上次的提示词更改是否将置信度压缩到了单个值——这是含糊度丧失的典型特征。
将拒绝率 作为一级指标。 模型拒绝回答、要求澄清或说“我不知道”的查询比例也是校准的一部分。一个将拒绝率从 8% 降低到 1% 且准确率提高 3% 的提示词重构,几乎总是一次校准退化——你用干净的弃权换取了自信的错误答案。
按切片(slice)校准,而不只是总体校准。 整体 ECE 可能保持不变,而特定的查询类型——那些含糊表达能防止事故发生的罕见类型——却变得极度过度自信。按查询难度、领域以及基准事实是否在训练分布中来切片校准。校准失效的切片几乎从来不是你想去检查的那个。
失败模式的行为评估。 准确率评估测量的是“答案是否正确”。校准评估还应该测量“模型是否在错误的情况下标记了不确定性”。对错误进行抽样,查看模型在每个错误上表达的置信度,并计算有多少错误带有含糊表达。一个在 20% 的错误中表现为“自信且错误”的模型,与一个在 80% 的错误中表现为“含糊且错误”的模型,具有完全不同的风险状况。
在不破坏实用性的前提下恢复诚实的规避
当团队看到性能回退时,往往会倾向于将 Prompt 调整回去 —— “总是规避,总是声明免责”。这产生了另一种失效模式:模型在面对显然正确的答案时也含糊其辞,破坏了用户体验,并教会了用户忽略这些规避,因为它们毫无信息量。目标不是更多的规避,而是经过校准的规避 —— 与实际不确定性挂钩的规避。
针对口头表达置信度的温度缩放 (Temperature scaling)。这种单参数修复是理想的起点。收集一个校准集,拟合一个标量温度来重缩放模型表述的置信度,从而使 ECE 最小化,并在推理时应用此缩放。它不会改变答案(准确率得以保留),只会修正置信度的表达方式。这是一种成本低廉、易于部署且是文献中公认的基准方法。
训练后阶段的奖励校准。如果你控制训练循环,校准感知奖励塑造(PPO-M 和 PPO-C 变体)将显式置信度分数集成到奖励模型训练中,并在基准测试中显示出 ECE 降低了 90% 之多。如果你使用的是前沿模型,你无法做到这一点 —— 但你可以在应用层通过置信度分解(confidence decomposition)来实现等效操作,分别引出针对问题难度和答案忠实度的评分。
保留不确定性的 Prompt 模式。显式地要求模型在给出答案之前列出它可能出错的原因。要求提供口头的置信度评分。在 Prompt 中包含干扰选项以强制模型进行区分 —— 研究表明,这可以将 ECE 降低多达 90%,同时提高准确率。不要只是告诉模型“要自信”;这正是最初破坏校准的指令。
作为训练行为的放弃 (Abstention)。将拒绝回答作为正向类别加入你的训练和评估集。如果你的评估中获得学分的唯一方法是产出答案,模型就永远会产出答案。如果“我不知道,以下信息将有助于我做出决定”是一个受到奖励的输出,模型就会在应当使用它的查询中调用它。
循环中的语义熵 (Semantic-entropy) 信号。针对高风险查询生成多个补全结果,并在意义层面(而非 Token 层面)衡量一致性。高语义方差伴随高口头置信度是幻觉正在生成的典型特征。这是一种生产级的幻觉检测器,适用于黑盒模型,代价是额 外的推理成本。
无人监控的事故类别
校准回退之所以能逃避检测,是因为在没有上下文的情况下,它们引起的事故与普通错误无法区分。一位工程经理看着支持工单,看到“模型把这个搞错了”,然后将其归类为幻觉。他们忽略的是元模式 (meta-pattern):在没有任何规避的情况下给出的错误答案比例逐季上升,且用户行为正在发生变化 —— 澄清问题变少,直接采纳的输出变多,从回答到采取行动的时间缩短。这些是自动化意外 (automation-surprise) 事故的先行指标,而它们都不会出现在准确率看板上。
认真对待校准的团队会在发布清单中增加三项内容。首先,对比候选 Prompt 与基准的可靠性图表 (reliability diagram),发布的门槛是“校准没有回退”且“准确率有所提高”。第二,拒绝率的增量,任何接近 5 倍的压缩都会被视为发布阻碍并等待调查。第三,针对错误代价最高的查询类型进行切片后的 ECE —— 也就是校准崩塌最可能造成伤害的切片,而不是它最可能出现在聚合统计数据中的地方。
前沿模型领域将继续提高标准基准测试的准确率。但它们是否会持续改进校准并不明显;经济和奖励塑造的动机往往指向相反的方向。想要在下一次 Prompt 重构周期中生存下来的 LLM 产品团队,需要衡量那些基准测试未衡量的维度。准确率告诉你模型对的频率。校准告诉你用户能否区分哪些时候是对的。而第二个数字才是你的客户赖以行动的依据。
- https://arxiv.org/abs/2410.09724
- https://arxiv.org/abs/2502.11028
- https://arxiv.org/abs/2404.02655
- https://arxiv.org/abs/2409.19817
- https://arxiv.org/html/2503.14477v1
- https://arxiv.org/html/2505.23912
- https://iclr-blogposts.github.io/2025/blog/calibration/
- https://aclanthology.org/2025.emnlp-main.742.pdf
- https://www.nature.com/articles/s41586-024-07421-0
- https://dl.acm.org/doi/full/10.1145/3744238
