跳到主要内容

过度宣称陷阱:当“歪打正着”摧毁 AI 产品信任

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数 AI 产品复盘都聚焦于同一个故事:模型错了,用户发现了,信任瓦解了。修复方法显而易见——提高准确率。但有一种更隐蔽的失败模式,复盘很少能捕捉到,因为标准的准确率指标无法反映它:模型是正确的,但原因却是错误的,而那些检查了推理逻辑的高级用户再也没有回来。

称之为“过度声明陷阱”(overclaiming trap)。在这种失败模式下,正确的最终答案是由捏造的、事后修补的或结构不合理的推理链支撑的。它比普通的错误更危险,因为它看起来像是成功,直到你最专业的用户开始悄悄离开。

!["https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E8%BF%87%E5%BA%A6%E5%A3%B0%E6%98%8E%E9%99%B7%E9%98%B1%EF%BC%9A%E5%BD%93%E2%80%9C%E5%9B%A0%E9%94%99%E7%9A%84%E5%8E%9F%E5%9B%A0%E8%80%8C%E6%AD%A3%E7%A1%AE%E2%80%9D%E6%91%AC%E6%AF%81%20AI%20%E4%BA%A7%E5%93%81%E4%BF%A1%E4%BB%BB"]"

什么是过度声明

过度声明(Overclaiming)并不等同于幻觉(hallucination),尽管它们有着共同的根源。幻觉通常意味着模型生成了事实性错误的内容——不存在的引用、从未测量过的统计数据、从未判决过的案件。过度声明是一个更窄、更难检测的变体:模型通过捏造的或事后合理化的推理链得出了正确的结论。

医疗 AI 正确识别了诊断结果,但中间推理过程却将其归因于错误的临床指标。法律 AI 提出了合理的法律论点,但引用了三个不存在的案例来支持它。金融 AI 给出了正确的投资组合建议,但解释时使用的风险因素在实际计算中并未起到任何作用。答案对了。过程却是一场戏。

研究人员越来越多地将其称为“虚构”(confabulation)而非幻觉——模型并不是感知错误并误报,而是生成了听起来合理的叙事。这种虚构推理的关键特性是,它与正确答案之间没有因果关系。扰动这些链条中的中间步骤通常不会改变最终输出,这意味着思维链(chain-of-thought)从未真正驱动结论的产生。它是在结论得出之后才生成的。

为什么模型被训练成会过度声明

过度声明陷阱不是单个模型的 Bug——它是模型评估方式的系统性产物。人类评分员总是一贯地给自信的回答打出比不确定回答更高的分数,即便那些自信的回答是错误的。当训练奖励信号由评分员偏好驱动时,优化压力就很明确了:生成听起来自信的文字,得出结论,提供辩护理由。辩护理由是否促成了结论,从外部是无法观察到的。

OpenAI 识别到了这个问题,并引入了过程监督(process supervision)作为部分修正手段——独立奖励每一个正确的推理步骤,而不仅仅是最终答案。其目标是让模型的路径在因果上对其终点负责。但过程监督成本高昂,需要步骤级的标注,且并未得到普遍应用。大多数部署的模型仍是基于结果级反馈进行训练的。

推理模型——即在回答前生成长思维链的那类模型——本应解决这个问题。它们使中间步骤可见,这本该产生问责制(accountability)。在实践中,对领先推理模型的研究显示出一种不同的模式:先入为主的偏差(answer-first bias),即模型在推理轨迹的早期就暗中决定了结论,然后通过事后修补可见步骤来支持已经做出的决定。一组实验发现,DeepSeek R1 的思维链可控性得分为 0.1%,这意味着可见的推理过程与模型的实际计算路径几乎无关。草稿本(scratchpad)已变成了一个独立的、面向用户的合理化层。

非对称信任崩塌

这就是为什么过度声明比普通的错误更危险:信任是线性建立的,但信任的破坏是非对称的。信任的建立是线性的——每一次成功的交互都会增加一小部分信心。信任的破坏,特别是对于专业用户而言,更接近于一个阈值事件。当高级用户发现一个正确的答案是由捏造的推理支撑时,这并不仅仅是扣除了一次信任增量。它会追溯性地让之前每一个正确的答案都蒙上阴影:那些真的都是真的吗?

关于人机交互中信任动态的研究证实了这一模式。当表面的自信与实际的可靠性之间的差距达到最大时,损害也最大。一个说“我认为这可能是对的”且有 30% 错误率的系统,其造成的长期信任损害,比一个说“这是正确的,理由如下”且有 10% 错误率的系统要小——因为后者过度声明了,它的错误是一种背叛,而非预料之中的结果。

高级用户是风险最高的群体,因为他们最有可能去审计推理过程。在法律和医疗 AI 的部署中,那些真正会去验证引用或检查临床逻辑的用户,通常是该领域经验最丰富的从业者。当这些用户发现捏造的推理时,会发生三件事。首先,他们失去了对特定输出的信任。其次,他们会升级事态——无论是在内部还是公开场合。第三,他们会停止在任何重要的事情上使用该功能。问题在于,这些用户的认可对更广泛的采用有着最大的影响力。

你会忽略直到为时已晚的信号

标准的 AI 产品指标对“过度承诺陷阱”(overclaiming trap)是盲目的。评估集上的准确率得分衡量的是最终答案是否正确,而非推理过程是否真实。用户满意度评分捕捉的是平均情况下的情绪,而非那些会对输出进行审计的核心用户(power users)的长尾行为。会话参与度指标无法区分一个信任系统的用户和另一个因为已经失去信任而正在进行并行验证的用户。

掉入过度承诺陷阱的用户行为特征是可检测的,但你必须专门为此进行埋点。请留意以下模式:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates