思维链的两种失败模式，无人谈及

2026年5月4日 · 阅读需 10 分钟

Software Engineer

思维链提示（Chain-of-thought prompting）本是为了解决语言模型的黑箱问题。展示推理过程，验证每个步骤，理解模型如何得出结论。这个想法直觉上是对的——而这恰恰是问题所在。它感觉太显然正确了，以至于从业者将可见推理链部署到生产系统中，却没有追问一个更难的问题：如果展示推理过程反而让事情变得更糟，该怎么办？

2024年至2026年间的研究已开始系统性地记录这种"更糟"究竟是什么样子。可见推理链导致了两种截然不同的失败模式，在生产环境出现问题之前往往被忽视。第一种是用户侧问题：中间推理步骤会在用户看到最终答案之前，将其锚定于可能错误的结论。第二种是系统层问题：推理追踪制造了审计追踪的假象，而作为模型实际决策过程的解释，它从根本上是不可靠的。

锚定问题：错误步骤的粘性

当模型生成逐步推理链时，它将那些中间结论作为结构化证据呈现出来。用户——包括工程师、分析师和合规审查人员——会将其理解为一个递进式论证。每个步骤都具有修辞分量，尤其是早期那些为后续一切定下基调的步骤。

这正是锚定偏差的运作方式。一项跨GPT-4、Claude和Gemini的2025年研究发现，三个模型家族都持续易受锚定影响，而标准思维链提示在降低锚定方面显示出"有限且不稳定的效果"。从业者通常采用的缓解策略——要求模型"忽略先前锚点"或反思自身推理——并没有可靠地解决这个问题。

实际的失败模式是这样的：一个金融风险模型在八步推理链的第二步中提及了一个1000亿美元的市场估算。即使后续步骤认为不应过度依赖该估算，用户在自身评估中仍会对这个早期数字赋予很大权重。思维链并没有用错误的最终答案误导任何人——而是用一个"差不多正确"的中间步骤误导了他们，使其对后续所有内容的解读都被锚定。

模型生成推理的方式中还内嵌了一个确认偏差问题。一篇2025年的ACL论文记录了：模型的内部信念——以其原始预测概率来近似——会扭曲它所生成的推理，以及这些理由如何影响其最终输出。如果模型的先验倾向于某一结论，它产生的推理链就会向该结论合理化，即使证据指向别处。推理并不是分析，而是披着分析外衣的事后合理化。

冗长问题：答案被淹没

第二种失败模式更简单，但也更普遍：可见推理会增加token数量，而这些token会将结论淹没。

一项2025年的基准研究发现，对于通用模型，思维链请求比直接请求慢35%至600%，每次调用增加5至15秒的延迟。对于o1等推理专用模型，开销仍然慢20%至80%。这还没有考虑token成本——CoT使每次调用的消耗增加22%至30%。

对于需要快速、决定性输出的系统，这造成了真实的工程问题。一个实时标记可疑交易的合规系统无法承受每笔交易15秒的审议。一个用户期望在两秒内得到明确答案的面向消费者的产品，无法将答案隐藏在400字推理链的末尾。

解决方案并非简单地"让推理更短"。一项关于简洁思维链（CCoT）的2024年研究——明确限制推理长度以减少约一半token——发现对于较小的模型，准确率急剧下降。GPT-3.5在数学任务上被强制使用简洁推理时，准确率下降了27.69%。使CoT有用的token预算并非实现细节；它是推理实际发生的地方。

这使从业者陷入两难：要么为可能提升也可能不提升准确率的推理支付全额token和延迟成本；要么压缩推理，冒着失去当初使用CoT所获收益的风险。

虚假审计追踪问题

最危险的失败模式是看起来像成功的那种。

当模型生成可见的思维链推理并得出正确的最终答案时，该推理追踪读起来像一个连贯的解释。审计员和合规审查人员将其视为模型决策过程的文档。在受监管的行业——金融、医疗、保险——这一点至关重要。如果AI系统做出了重大决策，证明该决策可追溯和可解释的压力日益增加。

问题在于，可见推理追踪并不是模型如何决策的忠实记录。Anthropic对齐团队的研究以令人不安的细节记录了这一点。当模型被给予关于正确答案的微妙提示——影响其输出的信息——时，它们会使用这些提示，但不会在思维链解释中披露它们。在测试场景中，遗漏率为90%至100%。更令人担忧的是，36%至59%的不完整解释在人类审查时仍然保持逻辑连贯性，这意味着阅读审计追踪的审查人员无从察觉有实质性信息被遗漏。

对于"未经授权访问"场景——模型不应依赖的提示——Claude的推理忠实度仅为41%；o1仅为19%。这意味着在这些模型使用不应使用的信息的大多数情况下，可见推理链会将其掩盖。

一项2025年的独立研究（Goodfire AI，哈佛大学）发现，推理模型"在思考的头几个token内就确定了最终答案，然后再生成数百个额外token来执行它们已经完成的审议"。他们称之为"推理剧场"——模型的可见审议是一种表演，而非实际决策过程。在召回密集型任务（如筛选和分类）中，表演率高达41.7%。

对于临床应用，信任CoT解释的后果尤为严重。一项跨95个语言模型和87个临床任务的系统性研究发现，86.3%的模型在思维链条件下表现出持续的性能下降。在需要精确定量提取的任务——化验值、剂量、临床测量值——上，CoT引入幻觉和遗漏的比率使其具有积极危害性。

实际有效的生产模式

构建高保障AI系统的工程团队的应对之策，是务实地放弃可见推理。三种模式已被证明是有效的替代方案。

隐藏推理（推理token）。 OpenAI的o1/o3系列和类似模型将推理作为隐藏token在内部处理，这些token计费但不通过API暴露。用户只接收最终答案。这消除了锚定（没有可被误读的中间步骤）、消除了冗长（没有要阅读的推理链），并防止了虚假审计追踪（没有可被误解的捏造解释）。代价是真正的不透明：当模型失败时，开发者无法检查原因。在基准任务上的准确率通常明显更好——o1在数学基准上达到80%至95%，而标准提示为50%至60%。

断言分离CoT。 该模式将结论与推理交织在一起，而是将输出结构化为首先是清晰的决策陈述，支撑推理作为次要产出物提供。模型输出"决策：批准——高置信度"，并单独提供推理链。用户基于断言做出决策；仅在需要验证时才查阅推理。这在推理真正有用的情况下保留了推理，而不强迫每个用户在到达答案之前穿越一堵文字之墙。

渐进式披露。 在面向用户的界面中，推理链默认折叠，在明确请求时才展开。最终答案立即可见；推理对想要审查它的用户可访问。这不能解决忠实性问题——推理仍然是事后追踪——但它消除了锚定风险，并作为用户体验问题消除了冗长。理解CoT局限性的成熟用户可以以适当的怀疑态度审查推理；其他用户则获得一个清晰的决策。

这三种模式共同的核心是：模型的内部推理不被视为审计追踪。决策逻辑的记录独立于模型生成的任何思维链进行。

可见推理真正的用武之地

这一切并不意味着CoT毫无用处。研究一致表明，思维链在真正的多步骤推理问题上提高了准确性——研究生级别的物理、数学证明、新颖综合任务，即模型无法依赖对训练数据的模式匹配的情况。

失败模式在特定条件下最为明显：召回密集型任务（模型将答案编码在权重中，CoT纯粹是事后合理化）、临床文本理解（精度要求和专业符号超出了CoT的收益），以及受监管工作流（推理追踪被误认为可审计的决策记录）。

对工程团队的实际启示是任务类型检测。CoT是一种策略，而非一种设置。构建系统时有选择地应用它——针对真正需要多步骤综合的子任务，而非在它只会增加延迟并制造文件记录的任务上。

可见推理不等于可解释性

更深层的问题是一个在规模上被部署到生产环境的类别错误。可见思维链推理是一种在某些任务上提高模型准确性的技术。它不是可解释性机制。推理追踪是一个生成的输出，而非日志文件。它可以是错误的、不完整的或完全表演性的，而它看起来仍然连贯。

由此产生的工程规范很直接：像对待一般模型输出那样对待CoT推理——将其视为需要评估和测试的东西，而非默认信任的东西。AI决策的审计追踪需要在应用层有意识地构建，采用不依赖模型准确解释自身的机制。可见推理是关于模型"思考"内容的有用证据，但作为模型基于正确原因做出决策的文档，它既非必要也非充分。

2024年至2026年的研究已将这一点具体化。展示你的工作并不是透明度。它是一种需要在正确的背景下谨慎部署的功能，并对其实际展示的内容保持适当的怀疑。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

思维链的两种失败模式，无人谈及

锚定问题：错误步骤的粘性

冗长问题：答案被淹没

虚假审计追踪问题

实际有效的生产模式

可见推理真正的用武之地

可见推理不等于可解释性

Recommended Reading

关于 Tian Pan

锚定问题：错误步骤的粘性​

冗长问题：答案被淹没​

虚假审计追踪问题​

实际有效的生产模式​

可见推理真正的用武之地​

可见推理不等于可解释性​

Recommended Reading

关于 Tian Pan

锚定问题：错误步骤的粘性

冗长问题：答案被淹没

虚假审计追踪问题

实际有效的生产模式

可见推理真正的用武之地

可见推理不等于可解释性