校准差距:你的 LLM 说有 90% 的把握,但实际上只有 60% 的准确率
· 阅读需 12 分钟
你的语言模型告诉你,它有 93% 的把握认为 Geoffrey Hinton 在 2010 年获得了 IEEE Frank Rosenblatt 奖。然而实际的获奖者是 Michio Sugeno。这不是传统意义上的幻觉——模型生成了一个听起来合情合理的答案,并给它附上了一个高置信度分数。问题在于,这个置信度数字本身就是谎言。
这种声称的置信度与实际准确率之间的断层,就是所谓的校准差距。它是生产 AI 系统中被严重低估的故障模式之一。那些在原始模型置信度分数之上构建路由逻辑、升级触发器或用户可见置信度指示的团队,是在沙滩上建楼。
