跳到主要内容

思考预算:扩展推理模型何时真正具备经济意义

· 阅读需 11 分钟
Tian Pan
Software Engineer

令人惊讶的是,许多 AI 团队一旦获得 o3 级别或 Claude 扩展思考模型的访问权限,就会默认对所有查询启用扩展思考。这背后的逻辑看似显而易见:更智能的推理等于更好的输出,何不始终开启?问题在于,这种逻辑没有考虑到测试时计算扩展在实践中如何运作的基本事实。扩展思考能显著提升特定类型任务的性能,在另一些任务上则会降低质量,并可能将全局推理成本推高 5-30 倍。那些从这些模型中获取最大价值的团队,将推理预算作为一个明确的决策来对待——其重要性不亚于模型选择或提示词工程。

本文阐述了任务分类体系、成本结构,以及将战略性使用思考预算的团队与仅仅为质量幻觉溢价买单的团队区分开来的路由决策框架。

思考 Token 的计费方式(及其重要性远超你的想象)

扩展思考的机制听起来很简单:在生成可见答案之前,模型会运行一段内部的思维链。令人意外的是,这段内部推理与输出 token 的计费方式完全相同——而且它是不可见的。你在响应中看到 500 个 token 的连贯分析,但实际上已被计费 5,000 个 token。

这不是什么怪癖,而是刻意为之的设计。OpenAI 的 o1/o3、DeepSeek R1 和 Claude 的扩展思考模式,都以输出 token 的费率计算推理 token:

  • Claude Sonnet 4.615/百万输出token。一个生成1万个思考token的查询,在可见答案之前就已产生15/百万输出 token。一个生成 1 万个思考 token 的查询,在可见答案之前就已产生 0.15 的费用。
  • DeepSeek R1:推理 token 按 $2.19/百万计费。高难度数学题可能产生 2-2.5 万个推理 token,而可见响应可能只有 500 个 token。实际成本是 token 计数器显示值的 50 倍。
  • OpenAI o3:定价因推理努力程度(低/中/高)而异。复杂查询的高强度推理可将每次查询的有效成本推至标准费率的 5-10 倍。

这个倍率并不均一——简单问题触发较短的推理链,高难度问题则会急剧膨胀——这意味着若不了解自己的任务分布,就无法可靠估算推理成本。那些在默认开启扩展思考后才在生产环境中发现这一问题的团队,往往是在账单到来之前,延迟指标还没有任何异常时,就已经面临账单惊喜了。

预算控制的存在正是出于这个原因。大多数 API 都暴露了 max_thinking_budget_tokens 或等效参数。当成本可预测性至关重要时,这个参数必须配置,而不是可选项——它是需要首先配置的东西。

决定一切的两类任务

你所见到的扩展推理模型的所有基准测试收益——o3 在 AIME 2024 上解决了 96.7% 的问题,而 o1 只有 56.6%;o3 在 ARC-AGI 上达到 87.5%,而 GPT-4o 仅有 5%——都来自具有共同属性的特定任务类型:中间步骤的正确性至关重要。

当一道数学题需要在推导结论之前正确建立引理时,错误的中间步骤会级联扩散。扩展思考给模型提供了空间,在最终答案中传播之前捕获并纠正这些错误。同样的动态也适用于竞赛编程(在边界情况下追踪执行路径)、复杂代码审查(验证多文件依赖关系间的行为)以及长文档分析(必须解决跨章节的矛盾)。

与此互补的另一类任务——扩展思考收益甚微甚至适得其反——具有不同的属性:质量由输出阶段决定,而非中间推理。这类任务包括:

  • 摘要与提取:模型需要阅读并重新格式化。思考 token 增加延迟和成本,却不改善简洁性。
  • 分类与路由:二元或有界多类决策。分类器的准确性由训练分布驱动,而非内部推演。
  • 创意生成:产品描述、邮件模板、叙事散文。更长的推理链不会改善文体质量,有时反而会因引入过多的迟疑和不必要的细节而降低应该直接呈现的文本质量。
  • 简单问答:答案要么在上下文中,要么不在——信息检索任务。

2025 年发表的研究为多模态任务增加了一个更令人警醒的数据点:在视觉场景中,更长的推理链与幻觉的增加呈正相关。机制是注意力漂移——随着推理的延伸,模型越来越依赖语言先验,而非实际图像。扩展思考不仅无法帮助视觉感知任务,反而会造成伤害。

实用的判断标准:如果输出质量取决于中间推理步骤是否正确,扩展思考是候选方案。如果质量取决于检索、格式化或文体,扩展思考就是浪费——甚至有害。

预算设置:从随意到精准

大多数工程师在开始使用扩展思考时,会挑一个整数(16K、32K、64K token)作为永久设置。这在两个方向上都是在白白浪费钱:对简单任务过度预算,对高难度任务预算不足。

关于 token 预算感知推理的研究(TALE、SelfBudgeter 及相关框架)汇聚于一个粗略的按复杂度分层的建议:

  • 简单推理(直接逻辑、单领域分析):2K-4K token 已足够。额外预算不会提升准确度。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates