生产环境中的 LLM 置信度校准:衡量与解决过度自信问题
· 阅读需 13 分钟
你的模型说“我非常有信心”,但 40% 的时间都是错的。这不叫幻觉——这是校准失败,而且在生产环境中,这是一个更难检测、衡量和修复的问题。
幻觉占据了所有媒体头条。但过度自信的错误答案往往更危险:模型以极高的表达置信度生成一个看似合理、流利的回答,而下游消费者完全收不到任何异常信号。幻觉检测器、RAG 依据性检查和事实核查流水线都有助于处理凭空捏造的内容。但对于模型知道事实却对其确定性存在系统性错误校准的情况,这些手段几乎无能为力。
大多数发布基于 LLM 功能的团队都将置信度视为事后才考虑的事情。这篇文章将探讨为什么校准会失败、如何衡量它,以及在生产环境中真正能改善这一指标的设计模式。
校准究竟意味着什么
一个完美校准的模型是其声明的置信度与实际正确率相匹配的模型。如果你的模型在一千次预测中都说“90% 信心”,那么它应该大约对 900 次。如果它只对了 600 次,那么你就遇到了校准误差——具体来说,就是过度自信。
这听起来简单,但有着不显而易见的含义。一个模型整体上可能非常准确,但校准却极其糟糕:它能答对大部分问题,但其置信度评分无法可靠地对正确和错误的答案进行排序。模型是准确的,但在它可能失败的地方却不够诚实。这种区别对于路由决策、拒绝回答阈值和面向用户的置信度显示至关重要。
LLM 通过两种截然不同的方式表达置信度,而这两者经常不一致:
- Token Logit 概率:在每个生成步骤中词汇表上的 Softmax 分布。这是来自模型架构的原始概率信号。它在开源权重模型中可用,有时也可以通过 API 获取(某些供应商会公开 Log Probs),但在大多数商业 API 调用中是缺失的。
- 言语化置信度:当你要求模型评估其确定性时,它所说的话——例如“我有大约 85% 的信心”或“我相信这是正确的”。这是通过与其他文本相同的自回归过程生成的,而不是从 Token 概率中衍生出来的。研究一致表明,这两个信号经常不一致,且言语化置信度的平均期望校准误差(ECE)超过 0.377——比底层的 Logit 概率差得多。
这意味着,如果没有额外的校准工作,要求模型输出置信度百分比这种常见模式作为工程信号几乎是徒劳的。
