跳到主要内容

过度宣称陷阱:当“歪打正着”摧毁 AI 产品信任

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数 AI 产品复盘都聚焦于同一个故事:模型错了,用户发现了,信任瓦解了。修复方法显而易见——提高准确率。但有一种更隐蔽的失败模式,复盘很少能捕捉到,因为标准的准确率指标无法反映它:模型是正确的,但原因却是错误的,而那些检查了推理逻辑的高级用户再也没有回来。

称之为“过度声明陷阱”(overclaiming trap)。在这种失败模式下,正确的最终答案是由捏造的、事后修补的或结构不合理的推理链支撑的。它比普通的错误更危险,因为它看起来像是成功,直到你最专业的用户开始悄悄离开。

!["https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E8%BF%87%E5%BA%A6%E5%A3%B0%E6%98%8E%E9%99%B7%E9%98%B1%EF%BC%9A%E5%BD%93%E2%80%9C%E5%9B%A0%E9%94%99%E7%9A%84%E5%8E%9F%E5%9B%A0%E8%80%8C%E6%AD%A3%E7%A1%AE%E2%80%9D%E6%91%AC%E6%AF%81%20AI%20%E4%BA%A7%E5%93%81%E4%BF%A1%E4%BB%BB"]"

什么是过度声明

过度声明(Overclaiming)并不等同于幻觉(hallucination),尽管它们有着共同的根源。幻觉通常意味着模型生成了事实性错误的内容——不存在的引用、从未测量过的统计数据、从未判决过的案件。过度声明是一个更窄、更难检测的变体:模型通过捏造的或事后合理化的推理链得出了正确的结论。

医疗 AI 正确识别了诊断结果,但中间推理过程却将其归因于错误的临床指标。法律 AI 提出了合理的法律论点,但引用了三个不存在的案例来支持它。金融 AI 给出了正确的投资组合建议,但解释时使用的风险因素在实际计算中并未起到任何作用。答案对了。过程却是一场戏。

研究人员越来越多地将其称为“虚构”(confabulation)而非幻觉——模型并不是感知错误并误报,而是生成了听起来合理的叙事。这种虚构推理的关键特性是,它与正确答案之间没有因果关系。扰动这些链条中的中间步骤通常不会改变最终输出,这意味着思维链(chain-of-thought)从未真正驱动结论的产生。它是在结论得出之后才生成的。

为什么模型被训练成会过度声明

过度声明陷阱不是单个模型的 Bug——它是模型评估方式的系统性产物。人类评分员总是一贯地给自信的回答打出比不确定回答更高的分数,即便那些自信的回答是错误的。当训练奖励信号由评分员偏好驱动时,优化压力就很明确了:生成听起来自信的文字,得出结论,提供辩护理由。辩护理由是否促成了结论,从外部是无法观察到的。

OpenAI 识别到了这个问题,并引入了过程监督(process supervision)作为部分修正手段——独立奖励每一个正确的推理步骤,而不仅仅是最终答案。其目标是让模型的路径在因果上对其终点负责。但过程监督成本高昂,需要步骤级的标注,且并未得到普遍应用。大多数部署的模型仍是基于结果级反馈进行训练的。

推理模型——即在回答前生成长思维链的那类模型——本应解决这个问题。它们使中间步骤可见,这本该产生问责制(accountability)。在实践中,对领先推理模型的研究显示出一种不同的模式:先入为主的偏差(answer-first bias),即模型在推理轨迹的早期就暗中决定了结论,然后通过事后修补可见步骤来支持已经做出的决定。一组实验发现,DeepSeek R1 的思维链可控性得分为 0.1%,这意味着可见的推理过程与模型的实际计算路径几乎无关。草稿本(scratchpad)已变成了一个独立的、面向用户的合理化层。

非对称信任崩塌

这就是为什么过度声明比普通的错误更危险:信任是线性建立的,但信任的破坏是非对称的。信任的建立是线性的——每一次成功的交互都会增加一小部分信心。信任的破坏,特别是对于专业用户而言,更接近于一个阈值事件。当高级用户发现一个正确的答案是由捏造的推理支撑时,这并不仅仅是扣除了一次信任增量。它会追溯性地让之前每一个正确的答案都蒙上阴影:那些真的都是真的吗?

关于人机交互中信任动态的研究证实了这一模式。当表面的自信与实际的可靠性之间的差距达到最大时,损害也最大。一个说“我认为这可能是对的”且有 30% 错误率的系统,其造成的长期信任损害,比一个说“这是正确的,理由如下”且有 10% 错误率的系统要小——因为后者过度声明了,它的错误是一种背叛,而非预料之中的结果。

高级用户是风险最高的群体,因为他们最有可能去审计推理过程。在法律和医疗 AI 的部署中,那些真正会去验证引用或检查临床逻辑的用户,通常是该领域经验最丰富的从业者。当这些用户发现捏造的推理时,会发生三件事。首先,他们失去了对特定输出的信任。其次,他们会升级事态——无论是在内部还是公开场合。第三,他们会停止在任何重要的事情上使用该功能。问题在于,这些用户的认可对更广泛的采用有着最大的影响力。

你会忽略直到为时已晚的信号

标准的 AI 产品指标对“过度承诺陷阱”(overclaiming trap)是盲目的。评估集上的准确率得分衡量的是最终答案是否正确,而非推理过程是否真实。用户满意度评分捕捉的是平均情况下的情绪,而非那些会对输出进行审计的核心用户(power users)的长尾行为。会话参与度指标无法区分一个信任系统的用户和另一个因为已经失去信任而正在进行并行验证的用户。

掉入过度承诺陷阱的用户行为特征是可检测的,但你必须专门为此进行埋点。请留意以下模式:

  • 单个会话中出现多次近乎重复的查询。 对回复不信任但又没有明显替代方案的用户,通常会多次重新描述同一个问题,以寻求一致性。如果他们发现不一致,信任度就会下降。如果他们发现了一致性,他们可能仍然不信任 —— 他们可能只是得出结论,认为该模型能稳定地编造事实。
  • 会话时长增加但参与深度没有提升。 用户在输出结果上花费了更多时间,但实际操作却变少了。他们正在阅读、交叉核对和验证,而不是根据结果采取行动。
  • 解释请求引发了不成比例的支持摩擦(support friction)。 当用户提交支持工单,专门询问系统 为什么 给出特定答案,而不是答案 是什么 时,他们已经发现了推理上的不匹配。这与认为答案错误的普通用户在性质上是不同的。
  • 早期核心用户的采用率发生逆转。 观察最早、最资深用户群体的队列数据。如果他们曾是热情的采用者,而现在仅将系统用于低风险任务,那么过度承诺陷阱很可能就是原因。

认识论诚实(Epistemic Honesty)的设计应对

解决过度承诺陷阱的方法主要不是靠提示词修复,而是一种架构和评估设计的应对。

将过程监督(process supervision)与结果监督(outcome supervision)分离。 如果你的模型仅根据最终答案的正确性进行微调或评估,你就无法获得推理是否真实的信号。构建步骤级评估(step-level evaluation)成本很高,但即使是对高置信度输出样本进行人工抽查推理链,也能在系统性编造模式复合化之前捕捉到它们。

为适当的弃权(abstention)进行设计。 在高风险领域,能够说“我无法为这个问题生成可靠的推理链”的系统比总是生成流畅解释的系统更值得信赖。标准的 UX 直觉是总是给用户一个答案,因为弃权感觉像是失败。但对于处于监管或高风险环境中的核心用户来说,一个诚实拒绝的系统是在建立信任,而不是在破坏信任。

在高风险流程中使用证据优先(evidence-first)的提示词模式。 对于推理审计性至关重要的任务,最稳健的提示方法是要求模型按照明确的顺序陈述前提、引用来源并推导结论 —— 且在结论可见之前完成这些。这与标准的思维链(chain-of-thought)提示不同,在后者中,模型仍在一次生成中产出推理和结论。它要求模型在综合信息之前先呈现证据。对医疗 AI 应用的研究发现,提示明确的统计推理步骤,而不是直接给出结论,显著减少了临床风险计算中的虚构(confabulation)。

将置信区间(confidence bounds)作为一等输出。 带有明确不确定性估计的回复 —— “高置信度”、“中等置信度,请验证引用来源”、“低置信度,仅作为起点” —— 为用户行为创造了正确的框架。目标不是降低全局的用户信任,而是让用户信任的校准与实际的可靠性相匹配。目前的 LLM 即使在 zero temperature 下也会系统性地过度自信。校准后的置信度呈现需要事后重新校准层(可靠性图表、预期校准误差测量),而不是依赖模型自身表述的置信度。

审计推理链的结构模式。 编造的推理链通常具有可检测的结构特征:结论出现在据称支持它的证据之前、引用了无法验证的来源、步骤之间存在无法通过最终答案解决的内部矛盾,或者推理步骤只是问题的转述而非分析动作。为这些模式建立自动化检查 —— 甚至是在完整的 LLM-as-judge 流水线之前的简单启发式检查 —— 可以在这些最严重的过度承诺案例触达高风险用户之前将其拦截。

当透明度适得其反时

AI 透明度研究中一个违反直觉的发现是,披露更多信息并不一定能线性增加信任。这种关系是非线性的:适度的透明度可以提高信任,但过度的透明度会引发认知负荷和更严格的审查,从而降低采用率。看到每一个中间推理步骤的用户并不一定会感到更有信心 —— 他们反而会有更多机会发现看起来不对劲的地方。

这造成了一种真实的设计冲突。最容易受到过度承诺伤害的用户往往是那些想要查看推理过程的用户。向他们展示更多推理过程也暴露了更多的表面积,从而更容易检测到虚构。解决办法不是隐藏推理,而是根据不同的信任等级设计展示内容。核心用户需要访问推理链,但他们也受益于能标记低置信度步骤的工具,而不是以相同的视觉权重呈现所有步骤。目标不是将透明度展示为一堵文字墙,而是进行有针对性的披露,使用户的专业知识与他们能够有效评估的细节程度相匹配。

组织的盲点

构建 AI 产品的团队很少将推理保真度(Reasoning fidelity)作为一等指标进行追踪,因为这比衡量答案准确率要难得多。现有的评估基础设施——准确性基准、满意度评分、延迟百分位——衡量的是可见的输出。而推理质量需要一种不同的评估方式:陈述的推理过程是否真的导致了正确答案,还是仅仅作为一种事后合理化(Rationalization)而产生的?

大多数团队只有在核心用户流失后,才会发现自己掉入了过度承诺陷阱(Overclaiming trap)。流失数据通常在信任事件发生 30 到 90 天后才显现,到那时,追溯到特定推理失败的因果链条已经冷却。因推理虚构而离开的用户很少会提交一张写着“你的推理是瞎编的”支持工单。他们只是悄无声息地减少在重要事务上对该功能的依赖。

解决办法不是对每个输出的推理进行定性评估——这无法实现规模化。相反,应该构建一个轻量但具体的监控层:对系统表达高置信度的输出进行采样,审计推理链是否存在结构性虚构模式,并跟踪核心用户的参与度是否与整体参与度同向移动。当两者背离时,过度承诺陷阱就是最可能的解释。

对于处于高风险领域的 AI 产品来说,做好这一点并非可选项。在受监管的行业中,虚构的推理链不仅是信任问题,更是法律责任问题。法庭已经因为律师提交带有虚构引用的 AI 生成诉状而对其进行了制裁,法官并不在乎法律论点本身是否成立。推理过程是错误的,这便足够了。

构建那些因为其推理而正确的产品,而不是尽管推理有误但结果恰好正确的产品。

References:Let's stay in touch and Follow me for more thoughts and updates