自信的幻觉制造者:生产级 LLM 知识边界信号的运行时模式
GPT-4 在用自身置信度评分区分正确答案与错误答案时,AUROC 仅约为 62%——这几乎与随机猜测(50%)相差无几。无论正确与否,模型的表达都同样自信流畅。如果你构建的生产系统默认高置信度响应是可靠的,那你实际上在依赖一个近乎随机的信号。
这就是知识边界信号问题,它处于绝大多数真实 LLM 质量故障的核心。模型不知道自己不知道什么——更准确地说,它内部其实知道,却无法可靠地表达出来。工程挑战不在于让模型拒绝得更多,而在于设计能将不确定性转化为可操作信号的系统,同时又不让产品体验显得残缺。
