自信的幻觉制造者：生产级 LLM 知识边界信号的运行时模式

2026年5月4日 · 阅读需 12 分钟

Software Engineer

GPT-4 在用自身置信度评分区分正确答案与错误答案时，AUROC 仅约为 62%——这几乎与随机猜测（50%）相差无几。无论正确与否，模型的表达都同样自信流畅。如果你构建的生产系统默认高置信度响应是可靠的，那你实际上在依赖一个近乎随机的信号。

这就是知识边界信号问题，它处于绝大多数真实 LLM 质量故障的核心。模型不知道自己不知道什么——更准确地说，它内部其实知道，却无法可靠地表达出来。工程挑战不在于让模型拒绝得更多，而在于设计能将不确定性转化为可操作信号的系统，同时又不让产品体验显得残缺。

为什么 LLM 成了自信的幻觉制造者

根本原因不在于架构，而是训练的副产品。来自人类反馈的强化学习（RLHF）会奖励听起来自信且有帮助的模型。人类评测者一贯偏好流畅、详尽的回答，而非简洁或带有保留的回答——即便保留性的回答在事实上更准确。一个说"澳大利亚首都是悉尼，那是该国最大、最具全球知名度的城市"的模型，得分会高于只说"堪培拉"的模型，尽管前者是错的。

经过数千个偏好对的训练，模型学会了一种可靠策略：自信的阐述胜过谨慎的不确定性。结果是一个学会了表演自信，而非表示自信的系统。

这一问题在训练分布的边缘愈发严重。关于训练动态的研究表明，LLM 难以通过监督微调有效习得新的事实性知识——而当它们确实习得了新知识时，反而与相关事实的幻觉率上升相关。模型把新事实缝合进去，却过度泛化，将模式延伸到不该延伸的地方。

规模扩展的收益也不如预期显著。更大的模型在对无法回答的问题保持克制方面并不更可靠。一项系统性研究发现，针对推理的微调平均使克制行为退化了 24%——被训练来攻克难题的模型，反而更难识别何时根本没有可供推理的有效答案。

校准的不确定性不等于凡事都加保留

在设计任何系统之前，务必厘清这一区别。

校准的不确定性意味着模型表达的置信度与其实际正确率相符。当它说"我相当有把握"时，在类似陈述中应有大约 80–90% 的情况是正确的；当它说"我不确定"时，准确率应下降。校准是跨越大量预测的统计属性，而非对单条陈述的保证。

回避式保留是与实际不确定性脱钩的语言软化。模型说"可能"、"我认为"或"据我所知"，不过是一种风格习惯或奖励破解策略——并非因为有真实的不确定性需要报告。

这一实践差异至关重要。一个对所有内容都加上"我可能有误"的系统会让用户忽视这一保留。而一个只在真正有不确定性时才说"我不确定"的校准系统，则能让用户将该信号用于路由决策。

另一侧还存在一个对齐训练问题。某些已部署的模型通过频繁拒绝来获得高"不确定性"评分——它们正确识别了自身的不确定性，但拒绝得太频繁（在某些评估中约达 70% 的问题），以至于毫无实用价值。校准正确意味着在自信的幻觉制造者与回避式拒绝者之间找到平衡。

检测：哪些方法真正有效

基于 Logit 的信号

生成时 token 概率分布所含的不确定性信号，远超大多数生产系统的使用程度。softmax 后的概率压缩了许多有用信息，而原始 logit 值保留了更丰富的认知信号。ICLR 2025 的最新研究提供了系统性证据：基于 logit 的置信度估计在区分认知不确定性（模型真正缺乏知识）与偶然不确定性（任务本身存在歧义）方面优于基于概率的方法。

在实践中，这意味着从模型内部提取 token 级别的置信度，并在关键片段上聚合，而不是将最终生成的文本视为黑盒。对于基于暴露对数概率的提供商 API 构建的系统，这可以立即使用。对于完全不透明的接口，则需要不同的方法。

温度扰动

一个校准良好的模型对语义等价问题应给出相似的答案。如果换一种方式提问却得到不同的答案，这种不一致性就是低置信度的可靠信号。"思维循环"（cycles of thought）技术将其形式化：以温度 > 0 生成多个响应，测量语义方差，将高方差视为不确定性指标。

这比单次推理调用代价更高，但对于高风险查询，这一成本往往是合理的。双调用模式——一次标准生成加一次扰动采样——会增加约 50% 的延迟和成本，但即便在不透明接口上也能提供可用的一致性信号。

不确定性引导的思维链

提示模型在给出答案前先进行推理，会在推理轨迹本身中暴露不确定性。一个在推理中写下"我不确定这是哪一年发生的——可能是 2019 年或 2020 年，时间有些模糊"的模型，正在发出你可以检测到的不确定性信号。

ZEUS 方法（零样本思维链的不确定性引导策略，COLING 2025）表明，将思维链与不确定性估计相结合，能在困难推理任务上提升性能，恰恰是因为模型被迫阐明推理最薄弱的环节。你无需阅读每个推理步骤即可实现这种检测——对短语模式（"我不确定"、"这可能是"、"我相信但无法确认"）的简单分类器就能提供有用信号。

集成分歧

在能够负担成本的生产系统中，最可靠的不确定性信号是相似模型之间的分歧。当你将同一查询发给来自不同提供商或使用不同系统提示的两个模型，而它们对答案产生分歧时，这种分歧是认知不确定性的强烈信号。MIT 结合认知不确定性与偶然不确定性指标的研究表明，这种集成方法优于任何单一指标。

这不仅仅是校准技术——它也适用于一致性检查。如果你的主模型和一个更小的验证模型对答案达成一致，你对该答案的置信度应该提高。如果它们不一致，则路由到更昂贵的验证步骤或 RAG。

生产环境的运行时模式

按置信度路由，而非二元拒绝

最糟糕的生产模式是在推理时做出"回答或拒绝"的二元决策。高拒绝率会让产品显得不可靠；低拒绝率意味着你在生成自信的废话。有效的设计是置信度分层路由：

高置信度：直接响应。记录预测并随时间监控。
中置信度：以明确的不确定性语言响应。"根据我所知，答案是 X——但你可能需要验证一下。"让用户决定给予多少权重。
低置信度：不从记忆中生成答案。路由到检索、不同模型或人工队列。

置信度阈值需要按领域校准。医疗信息产品应比创意写作助手有更严格的阈值。使用针对你的用例的真实评估集进行校准。

降级链架构

有效的生产系统使用分层降级，而非单一模型：

第一层——主模型：最强能力、最高延迟、成本最贵。直接处理高置信度查询。

第二层——备用模型：更小、更快、更便宜。适用于一致性检查或主模型超时的情况。

第三层——检索增强生成：更慢，但将响应锚定在检索到的文档中。在主模型置信度低或查询对时效性敏感时使用（近期事件、快速变化的数据）。

第四层——人工升级：适用于没有任何自动化路径足够可靠的情况。对于受监管的领域至关重要。

层间的触发逻辑与层本身同等重要。标准熔断器模式是可行的，但有一个变化：在质量退化时触发，而不仅仅是可用性问题。错误率超过 5%，或模型突然在之前高分的查询上产生低置信度输出，都是有效的触发条件。

RAG 并不能解决这个问题——但它有助于约束它

检索增强生成常被框架化为知识边界的解决方案：如果模型不知道某件事，就去检索它。但 RAG 引入了自身的失效模式。模型仍然会在检索到的内容周围产生幻觉——添加细节、延伸主张，或曲解实际检索到的内容。而当检索返回无关内容时，被提示要乐于助人的模型往往会直接生成答案，而不是发出失败信号。

在知识边界系统中，RAG 的正确框架是：检索置信度决定模型是否应该响应。如果你的检索步骤返回低相关性结果（低于检索评分的阈值），将其视为系统级低置信度信号并相应路由——而不是提示模型从头生成。

基于质量而非可用性的熔断器

大多数 LLM 生产系统检测 HTTP 错误和延迟，却很少检测质量退化。对知识边界信号有用的熔断器在以下情况触发：

置信度评分在滑动窗口的请求中跌破阈值
双模型一致性检查显示分歧率超过基线
检索相关性评分下降（通常意味着领域漂移或数据陈旧）

这些信号通常在用户投诉出现之前、明显错误率上升之前就会显现。它们表明模型的知识正被推到其校准的分布之外。

衡量校准：指标的实际含义

期望校准误差（ECE） 是最常见的指标，但其局限性常被低估。它按置信度级别将预测分桶，计算每个桶内的准确率，并测量差距。问题在于：桶的样本量可能严重不均衡，而一个拒绝所有不确定问题的模型会改善其 ECE，同时提供更少的实用价值。

AUROC 衡量区分能力——置信度评分在区分正确与错误预测方面的效果。0.62 的分数（当前 GPT-4 基准）意味着模型自身的置信度信号对这项任务几乎没有用。针对你的特定领域，将 AUROC 目标设置在 0.80 以上，才能有值得信任的路由信号。

选择性准确率 在实践中往往更有用：排除置信度最低的四分之一预测，仅测量最高 75% 的准确率。一个校准良好的模型在高置信度预测上的准确率应显著更高。如果差距很小，说明你的置信度信号没有区分能力。

新兴研究认为，校准指标本身应根据用户价值进行验证——一个可以优化却不能改善结果的指标不过是排行榜数字。在评估不确定性系统时，将校准指标与下游任务指标配对：更高的预测置信度是否与更高的用户满意度或更低的关键决策错误率相关？

2026 年真正的难题所在

上述大多数测量和检测技术已相对成熟。仍然存在的问题更加棘手：

微调会降低校准。 对齐训练（RLHF、DPO）系统性地使模型过度自信。校准感知微调（CFT）可以恢复校准，但需要将校准作为与任务性能并列的明确训练目标——而大多数团队没有基础设施或标注数据来清晰地做到这一点。

克制行为在很大程度上仍未解决。 提示以改善克制行为仅有边际效果。对不确定示例的"我不知道"响应进行微调是有效的，但需要知道哪些示例真正不确定——这是一个先有鸡还是先有蛋的问题。规模扩展无法解决它。目前最好的答案是上述基于路由的方法：不要期望模型自行决定克制；在外部构建路由层。

验证模型继承了同样的问题。 使用 LLM 作为裁判来验证不确定响应，只是在循环中又加入了一个过度自信的模型。单模型验证不可靠。更健壮的架构使用集成分歧或检索验证——而不是让第二个模型做出与第一个模型相同类型的判断。

交付可靠知识边界系统的团队，是通过架构和测量来做到这一点的，而不是在等待更好的基础模型。基础模型的能力已经提升，但它们在自我报告边界方面并没有变得更可靠。那项工程工作仍然属于你。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

自信的幻觉制造者：生产级 LLM 知识边界信号的运行时模式

为什么 LLM 成了自信的幻觉制造者

校准的不确定性不等于凡事都加保留

检测：哪些方法真正有效

基于 Logit 的信号

温度扰动

不确定性引导的思维链

集成分歧

生产环境的运行时模式

按置信度路由，而非二元拒绝

降级链架构

RAG 并不能解决这个问题——但它有助于约束它

基于质量而非可用性的熔断器

衡量校准：指标的实际含义

2026 年真正的难题所在

Recommended Reading

关于 Tian Pan

为什么 LLM 成了自信的幻觉制造者​

校准的不确定性不等于凡事都加保留​

检测：哪些方法真正有效​

基于 Logit 的信号​

温度扰动​

不确定性引导的思维链​

集成分歧​

生产环境的运行时模式​

按置信度路由，而非二元拒绝​

降级链架构​

RAG 并不能解决这个问题——但它有助于约束它​

基于质量而非可用性的熔断器​

衡量校准：指标的实际含义​

2026 年真正的难题所在​

Recommended Reading

关于 Tian Pan

为什么 LLM 成了自信的幻觉制造者

校准的不确定性不等于凡事都加保留

检测：哪些方法真正有效

基于 Logit 的信号

温度扰动

不确定性引导的思维链

集成分歧

生产环境的运行时模式

按置信度路由，而非二元拒绝

降级链架构

RAG 并不能解决这个问题——但它有助于约束它

基于质量而非可用性的熔断器

衡量校准：指标的实际含义

2026 年真正的难题所在