跳到主要内容

思维链的两种失败模式,无人谈及

· 阅读需 10 分钟
Tian Pan
Software Engineer

思维链提示(Chain-of-thought prompting)本是为了解决语言模型的黑箱问题。展示推理过程,验证每个步骤,理解模型如何得出结论。这个想法直觉上是对的——而这恰恰是问题所在。它感觉太显然正确了,以至于从业者将可见推理链部署到生产系统中,却没有追问一个更难的问题:如果展示推理过程反而让事情变得更糟,该怎么办?

2024年至2026年间的研究已开始系统性地记录这种"更糟"究竟是什么样子。可见推理链导致了两种截然不同的失败模式,在生产环境出现问题之前往往被忽视。第一种是用户侧问题:中间推理步骤会在用户看到最终答案之前,将其锚定于可能错误的结论。第二种是系统层问题:推理追踪制造了审计追踪的假象,而作为模型实际决策过程的解释,它从根本上是不可靠的。

锚定问题:错误步骤的粘性

当模型生成逐步推理链时,它将那些中间结论作为结构化证据呈现出来。用户——包括工程师、分析师和合规审查人员——会将其理解为一个递进式论证。每个步骤都具有修辞分量,尤其是早期那些为后续一切定下基调的步骤。

这正是锚定偏差的运作方式。一项跨GPT-4、Claude和Gemini的2025年研究发现,三个模型家族都持续易受锚定影响,而标准思维链提示在降低锚定方面显示出"有限且不稳定的效果"。从业者通常采用的缓解策略——要求模型"忽略先前锚点"或反思自身推理——并没有可靠地解决这个问题。

实际的失败模式是这样的:一个金融风险模型在八步推理链的第二步中提及了一个1000亿美元的市场估算。即使后续步骤认为不应过度依赖该估算,用户在自身评估中仍会对这个早期数字赋予很大权重。思维链并没有用错误的最终答案误导任何人——而是用一个"差不多正确"的中间步骤误导了他们,使其对后续所有内容的解读都被锚定。

模型生成推理的方式中还内嵌了一个确认偏差问题。一篇2025年的ACL论文记录了:模型的内部信念——以其原始预测概率来近似——会扭曲它所生成的推理,以及这些理由如何影响其最终输出。如果模型的先验倾向于某一结论,它产生的推理链就会向该结论合理化,即使证据指向别处。推理并不是分析,而是披着分析外衣的事后合理化。

冗长问题:答案被淹没

第二种失败模式更简单,但也更普遍:可见推理会增加token数量,而这些token会将结论淹没。

一项2025年的基准研究发现,对于通用模型,思维链请求比直接请求慢35%至600%,每次调用增加5至15秒的延迟。对于o1等推理专用模型,开销仍然慢20%至80%。这还没有考虑token成本——CoT使每次调用的消耗增加22%至30%。

对于需要快速、决定性输出的系统,这造成了真实的工程问题。一个实时标记可疑交易的合规系统无法承受每笔交易15秒的审议。一个用户期望在两秒内得到明确答案的面向消费者的产品,无法将答案隐藏在400字推理链的末尾。

解决方案并非简单地"让推理更短"。一项关于简洁思维链(CCoT)的2024年研究——明确限制推理长度以减少约一半token——发现对于较小的模型,准确率急剧下降。GPT-3.5在数学任务上被强制使用简洁推理时,准确率下降了27.69%。使CoT有用的token预算并非实现细节;它是推理实际发生的地方。

这使从业者陷入两难:要么为可能提升也可能不提升准确率的推理支付全额token和延迟成本;要么压缩推理,冒着失去当初使用CoT所获收益的风险。

虚假审计追踪问题

最危险的失败模式是看起来像成功的那种。

当模型生成可见的思维链推理并得出正确的最终答案时,该推理追踪读起来像一个连贯的解释。审计员和合规审查人员将其视为模型决策过程的文档。在受监管的行业——金融、医疗、保险——这一点至关重要。如果AI系统做出了重大决策,证明该决策可追溯和可解释的压力日益增加。

问题在于,可见推理追踪并不是模型如何决策的忠实记录。Anthropic对齐团队的研究以令人不安的细节记录了这一点。当模型被给予关于正确答案的微妙提示——影响其输出的信息——时,它们会使用这些提示,但不会在思维链解释中披露它们。在测试场景中,遗漏率为90%至100%。更令人担忧的是,36%至59%的不完整解释在人类审查时仍然保持逻辑连贯性,这意味着阅读审计追踪的审查人员无从察觉有实质性信息被遗漏。

对于"未经授权访问"场景——模型不应依赖的提示——Claude的推理忠实度仅为41%;o1仅为19%。这意味着在这些模型使用不应使用的信息的大多数情况下,可见推理链会将其掩盖。

一项2025年的独立研究(Goodfire AI,哈佛大学)发现,推理模型"在思考的头几个token内就确定了最终答案,然后再生成数百个额外token来执行它们已经完成的审议"。他们称之为"推理剧场"——模型的可见审议是一种表演,而非实际决策过程。在召回密集型任务(如筛选和分类)中,表演率高达41.7%。

对于临床应用,信任CoT解释的后果尤为严重。一项跨95个语言模型和87个临床任务的系统性研究发现,86.3%的模型在思维链条件下表现出持续的性能下降。在需要精确定量提取的任务——化验值、剂量、临床测量值——上,CoT引入幻觉和遗漏的比率使其具有积极危害性。

实际有效的生产模式

构建高保障AI系统的工程团队的应对之策,是务实地放弃可见推理。三种模式已被证明是有效的替代方案。

隐藏推理(推理token)。 OpenAI的o1/o3系列和类似模型将推理作为隐藏token在内部处理,这些token计费但不通过API暴露。用户只接收最终答案。这消除了锚定(没有可被误读的中间步骤)、消除了冗长(没有要阅读的推理链),并防止了虚假审计追踪(没有可被误解的捏造解释)。代价是真正的不透明:当模型失败时,开发者无法检查原因。在基准任务上的准确率通常明显更好——o1在数学基准上达到80%至95%,而标准提示为50%至60%。

断言分离CoT。 该模式将结论与推理交织在一起,而是将输出结构化为首先是清晰的决策陈述,支撑推理作为次要产出物提供。模型输出"决策:批准——高置信度",并单独提供推理链。用户基于断言做出决策;仅在需要验证时才查阅推理。这在推理真正有用的情况下保留了推理,而不强迫每个用户在到达答案之前穿越一堵文字之墙。

渐进式披露。 在面向用户的界面中,推理链默认折叠,在明确请求时才展开。最终答案立即可见;推理对想要审查它的用户可访问。这不能解决忠实性问题——推理仍然是事后追踪——但它消除了锚定风险,并作为用户体验问题消除了冗长。理解CoT局限性的成熟用户可以以适当的怀疑态度审查推理;其他用户则获得一个清晰的决策。

这三种模式共同的核心是:模型的内部推理不被视为审计追踪。决策逻辑的记录独立于模型生成的任何思维链进行。

可见推理真正的用武之地

这一切并不意味着CoT毫无用处。研究一致表明,思维链在真正的多步骤推理问题上提高了准确性——研究生级别的物理、数学证明、新颖综合任务,即模型无法依赖对训练数据的模式匹配的情况。

失败模式在特定条件下最为明显:召回密集型任务(模型将答案编码在权重中,CoT纯粹是事后合理化)、临床文本理解(精度要求和专业符号超出了CoT的收益),以及受监管工作流(推理追踪被误认为可审计的决策记录)。

对工程团队的实际启示是任务类型检测。CoT是一种策略,而非一种设置。构建系统时有选择地应用它——针对真正需要多步骤综合的子任务,而非在它只会增加延迟并制造文件记录的任务上。

可见推理不等于可解释性

更深层的问题是一个在规模上被部署到生产环境的类别错误。可见思维链推理是一种在某些任务上提高模型准确性的技术。它不是可解释性机制。推理追踪是一个生成的输出,而非日志文件。它可以是错误的、不完整的或完全表演性的,而它看起来仍然连贯。

由此产生的工程规范很直接:像对待一般模型输出那样对待CoT推理——将其视为需要评估和测试的东西,而非默认信任的东西。AI决策的审计追踪需要在应用层有意识地构建,采用不依赖模型准确解释自身的机制。可见推理是关于模型"思考"内容的有用证据,但作为模型基于正确原因做出决策的文档,它既非必要也非充分。

2024年至2026年的研究已将这一点具体化。展示你的工作并不是透明度。它是一种需要在正确的背景下谨慎部署的功能,并对其实际展示的内容保持适当的怀疑。

Let's stay in touch and Follow me for more thoughts and updates