跳到主要内容

Chain-of-Thought 的 Token 经济学:当“大声思考”的成本入不敷出时

· 阅读需 9 分钟
Tian Pan
Software Engineer

思维链(Chain-of-thought)提示词工程是应用大语言模型(LLM)工程中最重大的发现之一。让模型“一步步思考”,它在数学、逻辑和多跳推理任务上的准确率就会大幅提升。这项技术已变得如此标准,以至于许多团队在系统中几乎是本能地将其应用于每一个提示词——分类、提取、摘要、路由——而从未考虑过它是否真的有帮助。

事实通常并非如此。沃顿商学院生成式 AI 实验室(Wharton's Generative AI Lab)的最新研究显示,在三分之一的模型任务组合中,思维链(CoT)并没有带来统计学上的显著提升,而在其他一些组合中,它甚至会损害性能。与此同时,每一次 CoT 请求都会让你的 Token 账单膨胀 2 到 5 倍,并增加数秒的延迟。对于处理数百万次请求的生产系统而言,这已经不是一种提示策略,而是一个未经审计的成本中心。

令人不安的算账

一旦开始衡量,思维链的 Token 经济学就变得显而易见了。对于一个分类问题,直接回答可能只需要 15 到 30 个输出 Token。同样的问题,加上“让我们一步步思考”后,由于模型需要叙述其推理过程,会生成 150 到 400 个输出 Token。在规模化运行时,这就是每月 2,000 美元推理账单与 10,000 美元账单之间的区别。

但成本不仅仅体现在财务上。每一个额外的输出 Token 都会增加延迟。在沃顿商学院的研究中,CoT 请求比直接请求多耗时 35% 到 600%——每次调用平均多出 5 到 15 秒。对于注重感知速度的用户端应用,你正在用响应能力去换取可能根本无法改善答案的推理。

大多数 CoT 用法背后都潜藏着一个简单的假设:思考越多,答案越好。但数据揭示了一个更复杂的事实。

思维链何时真正有效

CoT 在特定类别的任务中能够体现其 Token 价值:即那些需要顺序推理、且中间步骤环环相扣的问题。

  • 多步算术:模型需要在运算过程中传递数值
  • 逻辑演绎:前提结合产生未直接表述的结论
  • 多跳推理:连接不同上下文片段中的事实以达成综合结论
  • 规划与分解:将复杂目标分解为有序的子任务

对于这些任务,CoT 不仅仅是在生成更多 Token——它在创建一个计算工作空间。中间 Token 充当了工作记忆,让模型能够在无法通过单次前向传播完成的推理步骤中保持状态。

沃顿商学院的数据证实了这一点:在 Gemini Flash 2.0 和 Claude Sonnet 3.5 等非推理模型上,CoT 在真正困难的推理任务上将平均准确率提升了 11% 到 13%。这是值得付出成本的真实收益。

何时无效——以及何时有害

问题在于,大多数生产环境中的 LLM 调用并不是多步推理任务。它们通常是分类、提取、格式重组、摘要或路由——在这些任务中,答案要么对模型来说显而易见,要么根本就不知道,任何“一步步思考”都无法改变这一点。

对于这些任务,CoT 会引入三种失败模式:

过度思考简单问题。 研究表明,CoT 可能会在模型原本可以正确回答的问题上导致错误。推理过程引入了变数——模型可能会因为想太多而否定最初正确的直觉,或者引入无关的考量从而使最终答案偏离轨道。一项研究发现,Gemini Pro 1.5 在应用 CoT 后,其完美的准确率下降了 17.2%。

在推理模型上进行冗余推理。 2025 年至 2026 年的大多数前沿模型已经具备内部思维链推理能力。像 GPT-4o、Claude 3.5+ 和 Gemini 2.0 这样的模型在训练时就被教会了在回答前进行推理。在这些模型之上叠加显式的 CoT 提示词,就像是要求一个在说话前已经思考过的人在思考时还要大声说出他在想什么——你得到的只是啰嗦,而没有额外的见解。沃顿商学院的研究显示,推理模型从显式 CoT 中仅获得了 2% 到 3% 的准确率提升,但响应时间却延长了 20% 到 80%。

“过度思考”的螺旋。 LLM 经常在已经得出正确答案后继续生成推理步骤。这些冗余的 Token 不仅浪费金钱,还可能引入错误。模型可能会自我怀疑、探索无关的切入点,或者在不必要的长链中放大微小的推理错误。关于早期停止(Early Stopping)的研究表明,平均可以消除 41% 的推理 Token 而不损失任何准确率,在某些任务中,这一比例甚至可以达到 57%。

决策框架

在将 CoT 添加到提示词之前,请先经过这三个过滤器的筛选:

过滤器 1:这项任务是否需要顺序推理? 如果答案只是一个分类标签、一个提取的实体或一个重构的字符串,CoT 就不会有帮助。模型要么知道答案,要么不知道——叙述不存在的推理步骤只会增加噪音。

过滤器 2:模型本身是否已经是推理模型? 如果你使用的是 o3、o4-mini、具有扩展思考能力的 Claude 或内置推理功能的 Gemini,显式的 CoT 指令几乎肯定是冗余的。这些模型已经分配了内部计算资源进行推理。你相当于支付了两次推理 Token 的费用。

过滤器 3:在你的实际分布中,成本与准确率的权衡如何? 不要仅仅基于基准测试就假设 CoT 有帮助。要在生产流量中进行衡量。进行 A/B 测试:在有无 CoT 的情况下使用相同的提示词,并对照你的标准答案(Ground Truth)进行评分。如果准确率提升不到 5%,而 Token 却增加了 200%,那么这笔账就划不来。

全量 CoT 的廉价替代方案

如果你确实需要推理,但又无法承担冗长的 CoT 所带来的 Token 成本,以下几种技术可以以极低的成本弥补大部分差距。

草稿链 (Chain-of-Draft, CoD) 指令模型生成简洁的中间步骤 —— 每步大约五个单词,而不是完整的句子。Zoom Communications 的研究表明,CoD 仅使用 CoT 7.6–32% 的 Token,同时其准确率与之持平甚至更高。在体育理解任务中,CoD 的表现实际上优于 CoT(使用 GPT-4o 时为 98.3% 对 95.9%),同时减少了 80% 的 Token 使用量。

简明思维链 (Concise Chain-of-Thought, CCoT) 通过在推理步骤中明确要求简洁,使响应长度比标准 CoT 减少了近 49%。对于大多数任务类型,准确率受到的影响微乎其微。

Token 预算感知推理 在提示词中设置了明确的 Token 预算。TALE 框架通过使用二分查找来寻找仍能产生正确答案的最小 Token 预算,实现了 67% 的 Token 削减,而准确率下降不到 3%。在 GSM8K 上,它仅使用 77 个 Token,准确率就超过了使用 318 个 Token 的原始 CoT(84.46% 对比标准版)。

选择性 CoT 应用 首先通过复杂度分类器路由查询。简单的查询使用直接提示词;复杂的查询则使用 CoT。这种混合方法在混合工作负载下,以总 Token 成本的 20–30% 捕获了 CoT 的大部分收益。

你今天应该进行的审计

大多数团队从未衡量过他们的 CoT 提示词是否物有所值。以下是最低限度的审计步骤:

  1. 盘点你的 CoT 使用情况。 在你的提示词模板中搜索 (Grep) “step by step”、“think through”、“reason about” 或 “let's work through”。统计有多少个提示词使用了明确的推理指令。

  2. 按任务类型分类。 将每个提示词标记为分类、提取、生成、推理或路由。任何不属于“推理”类别的 CoT 提示词都是可以移除的备选对象。

  3. 衡量差异。 对于使用量排名前 5 的 CoT 提示词,分别在有和没有 CoT 的情况下运行相同的输入。比较准确率、Token 数量和延迟。你可能会发现 60–70% 的 CoT 使用并没带来可衡量的准确率提升。

  4. 替换,而不仅仅是移除。 对于 CoT 确实有帮助的提示词,在接受全量 CoT 成本之前,尝试草稿链或 Token 预算限制。你通常可以以 20% 的 Token 成本保留 90% 的准确率提升。

更深层的问题:基于迷信的提示词工程

CoT 过度使用的模式揭示了生产级 LLM 系统中一个更广泛的问题:基于迷信而非测量来进行提示词工程。团队添加 CoT 是因为它在某个基准测试中有帮助,或者因为它在另一个任务中有效,又或者觉得“加了也没坏处”。但在生产环境中,每个 Token 都有成本,每条不必要的指令都是潜在的失败源。

同样的逻辑也适用于团队盲目效仿 (Cargo-cult) 的其他提示词技术:为简单任务设定复杂的角色指令、在零样本 (Zero-shot) 就能完成时使用少样本 (Few-shot) 示例、在系统提示词中重申模型已经知道的内容。每增加一项都会增加 Token、延迟和复杂性,而在具体任务上却没有经过验证的收益。

解决方法并不是放弃 CoT —— 而是将其视为一项具有可衡量成本和收益的工程决策,而不是一种默认设置。在优化之前先测量。在复杂化之前先测量。当你确实需要模型进行思考时,请确保你支付的 Token 是为了那些真正有帮助的思考。

References:Let's stay in touch and Follow me for more thoughts and updates