跳到主要内容

置信度-准确率倒置:为什么大语言模型在听起来最确信的地方往往最容易出错

· 阅读需 11 分钟
Tian Pan
Software Engineer

在生产环境的 AI 部署中,有一种模式反复出现,与用户直觉背道而驰。当模型说"我不确定"时,用户倾向于再次核查;当模型自信地给出答案时,用户则倾向于信任它。问题在于,前沿大语言模型恰恰在最可能出错的领域表现得最为自信。

这并非边缘失效模式。当被要求生成估算任务的 99% 置信区间时,模型实际覆盖真实值的比例仅约为 65%。主要生产模型的预期校准误差(ECE)从 0.108 到 0.726 不等——存在显著的错误校准,且在医疗、法律、金融等高风险垂直领域可量化地更差。危险之处不在于不准确本身,而在于这种倒置关系:同样的模型在通用知识任务上表现出合理的校准,却在错误代价最高的任务上变得自信而系统性地出错。

RLHF 为何破坏校准性

微调前的语言模型往往表现出相对合理的校准性——基础模型的 token 概率大致反映其不确定性。训练后的对齐程序,尤其是 RLHF(基于人类反馈的强化学习),破坏了这一关系。

其机制是间接但一致的:RLHF 训练模型产生人类评估者偏好的输出。而人类评估者,事实证明,更喜欢自信的答案。即使不确定性在认识论上是合理的,带有犹豫和不确定措辞的回答也会获得更低的奖励分数。奖励信号系统性地推动模型表现出自信,无论这种自信是否有依据。校准性——即声明的置信度与实际准确率之间的一致性——从未纳入奖励函数。

结果是:对齐后的模型同时变得更像是有帮助的,以及更系统性地过度自信。

这在高风险领域尤为突出。当模型被问及常见医疗状况时,其运作接近训练分布。当被问及罕见疾病表现、新颖的法律解释或晦涩的监管规则时,则远离训练分布。在两种情况下,模型都学会了表现出类似的自信,但后者的准确率要低得多。置信度并不跟踪难度。

如何量化错误校准

预期校准误差(ECE) 是标准起点。思路直观:按置信度水平对预测进行分组,测量每组内的实际准确率,计算预期与观测准确率之间差距的加权平均值。完美校准的模型 ECE = 0;超过 0.1 是显著的,超过 0.3 则是严重的。

可靠性图(Reliability Diagrams) 使之直观化:x 轴为置信度,y 轴为经验准确率。对角线代表完美校准。对角线上方的点意味着模型过于保守;对角线下方则意味着过度自信。对于大多数生产级大语言模型在特定领域任务上的表现,数据点会持续低于对角线。

布里尔分数(Brier Score) 提供互补指标——测量预测概率与实际结果之间的均方误差,对过度自信和过于保守均有惩罚。越低越好。与 ECE 结合,能给出更完整的校准质量图景。

对于黑盒 API 访问(GPT-4、Claude、Gemini),无法直接获取 logit 值,实践者使用代理指标:

  • 语言化置信度:要求模型明确陈述其置信度("你对此有多少把握,0 到 100 分?")。这出奇地有用,但可能被微调程序所左右。
  • 自一致性采样:生成多个补全并测量一致性。跨补全的高方差表明模型置信度低,即使模型本身没有这样说。
  • 弃权率测试:专门用模型应不确定的问题探测模型,测量它产生自信错误答案与适当犹豫表述的频率。

实际的校准审计并不昂贵:采样 100–200 个你知道答案的特定领域查询,获取置信度估计,绘制可靠性图。如果你的部署在医疗、法律或金融领域,预期看到的 ECE 会比通用基准上的差 2–3 倍。

高风险领域问题

特定领域的校准差距并不微妙。

医疗背景下,研究表明大语言模型对罕见疾病表现产生高置信度输出,而其实际准确率很低。失效模式是特定的:模型不知道自己不知道什么。临床医生询问常见表现会得到合理准确且适当带有保留措辞的回答;询问罕见疾病的非典型表现则会得到同样自信但更频繁出错的回答。本应最响亮的置信度信号反而沉默了。

法律背景下,有据可查的幻觉引用问题(引用不存在的案例,并自信地总结其判决)从根本上是一种校准失败。模型对法律来源的内部表示是有噪声的,但输出置信度始终很高。依赖大语言模型研究而未系统核实的法律专业人士已经陷入这种失败中。

金融背景下,对大语言模型交易策略跨 20 年周期的回测揭示了系统性错误校准:这些系统在持续牛市中过于保守,在熊市中过于激进——在两个拐点都出错了。它们还表现出确认偏误,面对矛盾证据时坚持最初评估。实际资金部署中的损失反映了真实的校准失败,而不仅仅是基准测试的弱点。

三个领域的共同模式:当查询离开模型舒适的训练分布时,性能急剧下降,而置信度却不然。

四种有效的系统设计模式

弃权阈值

最简单的干预是允许模型说"我不知道",并配合结构化路由规则。研究表明,正确识别高不确定性样本并将其路由至人工审核,可以在剩余样本上恢复 8% 的准确率,同时消除该群体中 50% 的幻觉。

实现这一点需要明确的不确定性信号。自一致性采样对基于 API 的部署最实用:生成 5–10 个补全并测量语义一致性。当一致性低时,路由至审核;当一致性高且领域经过充分测量时,允许自动通过。

设置特定领域的阈值。70% 的一致性阈值可能适合通用问答;对于医疗诊断或法律解释,可能需要 90%+ 的一致性加上强制性人工审批。

集成分歧路由

单个模型可能自信地出错。多个模型被问及同一问题并给出不同答案,提供了任何单个置信度分数都无法提供的信号。

实际架构:将同一查询路由至两三个模型(或以不同种子采样的同一模型)。测量语义一致性,而非字符串相等性——两种措辞相同答案的表述应算作一致;两种实质性不同的答案应算作分歧。当模型不一致时,升级处理。

关于基于集成的校准研究表明,与单模型方法相比,ECE 可降低高达 39%。开销是真实的(2–3 倍推理成本),因此将此方法集中在风险最高的查询子集上,而非全部流量。

对高置信度高风险输出强制人工审核

反直觉的规则:不要标记低置信度输出进行人工审核再让高置信度输出通过,而要在校准审计显示准确率差的领域标记高置信度输出。

这需要维护每个领域的置信度-准确率矩阵。如果你的法律问答系统显示 ECE 为 0.4(意味着置信度 90% → 实际准确率约 50%),那么高置信度输出恰恰是需要审核的,而不是低置信度输出。自信的答案才是模型最可能欺骗用户的地方。

实践中这意味着:

  • 模型对高风险查询表达确定性(无犹豫、无条件限定)的输出进入审核。
  • 模型表达不确定性的输出通常可以安全通过(用户得到了适当的警告)。
  • 这颠覆了朴素的直觉,但这是校准数据实际支持的做法。

语言化置信度分层

语言化置信度和 token 级概率测量的是不同信号,两者的分歧本身就具有信息价值。

在模型生成答案后,要求它明确陈述置信度。如果语言化置信度高但自一致性采样显示高方差,将这种分歧视为警示信号。如果模型说"我 85% 确定",但在五次生成中产生了三种不同答案,那么语言化置信度可能并未追踪模型的实际不确定性。

这种分层方法——结合明确的置信度询问、一致性测量,以及在可获取时的 token 级对数概率——提供比任何单一方法都更稳健的不确定性信号。

对于拥有模型训练权限的团队,在 RLHF 期间奖励校准性如今已可行。最新方法将明确的置信度分数整合到奖励建模中,并调整 PPO 训练以抑制过度自信信号。结果是:模型与 RLHF 对齐的模型一样有帮助,但置信度-准确率对齐性显著更好。

将校准与产品设计相连

校准失败有特定的用户影响模式。用户最初过度信任 AI 输出(尤其是来自声誉良好的前沿模型)。他们遭遇自信的错误答案。他们全面失去信任——不仅是在发生失败的特定领域。重建信任代价高昂。

防御性产品设计是在用户有理由不信任之前就明确呈现不确定性。"这个答案反映的是截至[日期]的信息,对于罕见情况我不太确定",比投射完整的自信然后出错要好得多。用户可以根据模型声明的置信度调整自己的核实力度——但前提是这种声明是诚实的。

10% 的人工抽查协议是任何高风险部署的实际起点:从生产输出中随机采样 10%,手动评估准确率,并按置信度区间绘制准确率图。这能从生产数据而非部署前基准数据给出实时可靠性图,而后者一贯更为悲观,也更为准确。

基准准确率,包括医疗、法律或金融基准上的表现,不能替代生产校准。在标准基准上达到 74–75% 的模型,在有分布偏移的真实领域流量上部署时,准确率差距可能超过 20%。在高风险部署中,对生产代表性数据进行校准审计不是可选项。

实践要点

置信度-准确率倒置是生产级大语言模型训练和部署方式的结构性属性,不是会在下一个模型版本中修复的 Bug。RLHF 将继续奖励听起来自信的答案。用户将继续比犹豫的答案更信任自信的答案。模型置信度与模型准确率之间的差距,将继续在最重要的领域最宽。

系统设计的应对措施——弃权阈值、集成分歧路由、校准感知的人工审核、分层置信度信号——并不是等待研究成熟的新颖想法。工具已经存在,模式已经经过验证。大多数生产部署中缺失的是刻意的测量:运行校准审计,为你的实际领域绘制可靠性图,基于观测数据而非基准直觉设置阈值。

一个知道自己不知道某事的模型是安全的。一个自信地不知道某事的模型,才是值得设计防御的失效模式。

References:Let's stay in touch and Follow me for more thoughts and updates