1 篇博文含有标签「llm-calibration」

校准差距：你的 LLM 说有 90% 的把握，但实际上只有 60% 的准确率

2026年4月12日 · 阅读需 12 分钟

Software Engineer

你的语言模型告诉你，它有 93% 的把握认为 Geoffrey Hinton 在 2010 年获得了 IEEE Frank Rosenblatt 奖。然而实际的获奖者是 Michio Sugeno。这不是传统意义上的幻觉——模型生成了一个听起来合情合理的答案，并给它附上了一个高置信度分数。问题在于，这个置信度数字本身就是谎言。

这种声称的置信度与实际准确率之间的断层，就是所谓的校准差距。它是生产 AI 系统中被严重低估的故障模式之一。那些在原始模型置信度分数之上构建路由逻辑、升级触发器或用户可见置信度指示的团队，是在沙滩上建楼。

关于 Tian Pan