校准弃答:你的 LLM 技术栈每一层都在惩罚的能力
你的模型可以拥有一种能力,在关键时刻,这种能力比你发布的任何其他行为升级都更有价值:能够说“我没有可靠的答案”并且是认真的。不是那种基于关键词匹配的安全拒绝。也不是模型在处理争议性话题时,从 RLHF 中学到的那种模棱两可的坏习惯 (hedging tic)。而是真正的能力——一种经过校准的弃权 (calibrated abstention),仅当且仅当模型的内部证据不支持生成自信的回答时才会触发。
你永远不会偶然获得这种能力。LLM 技术栈中的每一个默认设置都在反向推动。
预训练奖励预测的是下一个 Token,而不是“预测下一个 Token,或者诚实地承认你不知道接下来的内容”。在训练后的评测中,无论是人类还是 LLM 评判员,系统性地给自信的错误答案打分高于诚实的模棱两可——一项被广泛引用的结果显示,在 5 分制下,这种差距高达 15–20%,即使底层主张完全相同,使用对冲词汇 (hedge phrases) 也会损失约 0.7 分。用户反馈加剧了这一现象:点踩 (thumbs-down) 更多集中在显性的拒绝上,而不是隐性的虚假编造 (confabulations) 上。因为用户必须 实际进行事实核查才能发现自信的回答是错误的,而大多数用户并不会这样做。在每一个阶段,优化梯度都指向过度自信,而“我不知道”成了一个没人刻意丢弃却被遗失的功能。
这篇文章将探讨为什么梯度会指向那个方向,一个经过适当校准的弃权层在生产环境中究竟是什么样的,以及你必须发明什么样的评估纪律——因为现成的基准测试 (benchmarks) 是系统中最先失效的部分。
惩罚诚实的激励结构
从几乎每个团队都会不加思索沿用的基准评分规则开始。大多数流行的评估 (evals) 打分只有 0 或 1:精确匹配(经过一定规范化),对“我不知道”没有部分分数,对“我不知道,但这里是我要找的地方”也完全不给分。在这种规则下,对 30% 的输入选择弃权的模型在这些输入上得分为零;而一个盲目猜测的模型仅凭运气就能在同样的输入上获得 ≈25% 的分数。将这个梯度运行几千个训练步,模型就会学到:面对“我知道这个吗?”的回答应该是“显然知道,这是一个看起来很合理的回复。”
RLHF 中的奖励模型也继承了同样的模式。最近关于奖励校准的研究表明,PPO 奖励模型系统性地过度自信——无论事实准确性如何,它们都会给听起来自信的输出打高分,并且即使底层答案正确,也会惩罚诸如“可能”、“我不确定”和“你应该核实”之类的认识标记 (epistemic markers)。像 PPO-M 和 PPO-C 这样的方法通过显式注入校准后的奖励信号来对抗这种情况,因为如果没有这些信号,策略 (policy) 就会向奖励模型所青睐的断言式语调漂移。不确定性惩罚 RLHF (UP-RLHF) 进一步扩展了这一理念:使策略趋向于奖励集合达成一致的输出,并惩罚高方差的自信奖励。
当你使用 LLM 评判员来对生产流量进行评分时,情况也是大同小异。评判模型继承了自身训练中的断言式先验。2025 年的一项关于 LLM 评判偏见的研究《正义还是偏见?》(Justice or Prejudice?) 将此称为“权威偏见”(authority bias):在准确性相同的情况下,听起来自信的输出会击败模棱两可的输出,“校准至关重要”这一评分标准虽然缩小了影响,但并未消除它。当你使用同一个评判员来过滤 RLHF 偏好数据时,这种偏见会产生复合效应。你最终会得到一个偏好过度自信的评判员,它正在训练一个变得更加过度自信的模型,而这个模型又由一个偏好过度自信的评判员评分。
接着是用户。《自然·机器智能》(Nature Machine Intelligence) 中的“校准差距”研究表明,当解释显得自信且风格化时,人类会系统性地高估 LLM 的准确性;而将解释语气与模型的内部置信度保持一致,可以缩小校准差距和辨别差距(即用户区分正确答案和错误答案的能力)。但你的产品团队并没有进行这项实验。他们发布的是在用户满意度调查中得分更高的版本,也就是那个自信的版本,因为用户在当下更喜欢自信的回答,只有在事后才会察觉代价——有时甚至永远察觉不到。
四层结构,四个梯度,全都指向同一个方向。最终发布的模型,是那个能够流利编造事实的模型。
