跳到主要内容

推理模型经济学:思维链何时物有所值

· 阅读需 11 分钟
Tian Pan
Software Engineer

一家中型 SaaS 公司的团队在阅读了一些基准测试后,在每个提示词中都加入了“让我们一步步思考”(let's think step by step)。他们的响应质量有了明显的提升——但他们的 LLM 账单也翻了三倍。当他们深入研究日志时,发现大部分额外的 Token 都花在了支持单分类和会议记录总结等任务上,而在这些任务中,额外的推理对输出质量并没有明显的改善。

扩展思考模型对于难题来说是真正的能力飞跃。但如果不加区别地应用,它们也是一个可靠的成本陷阱。一个经过良好调优的推理部署与一个昂贵的部署之间的区别通常归结为一点:理解哪些任务真正受益于思维链(chain-of-thought),而哪些任务只是在为显而易见步骤的冗长叙述买单。

成本现状

推理模型与标准模型之间的价格差距并不细微。OpenAI 的 o1 每百万输入 Token 的价格为 15 美元,每百万输出 Token 的价格为 60 美元——大约比 GPT-4o 贵 4 到 6 倍。Claude 的扩展思考模式(extended thinking mode)采用与标准输出相同的单 Token 费率,但思考 Token 很容易在每次请求中增加 2,000 到 10,000 个。在 Opus 上以最大思考预算运行时,一个产生 10,000 个思考 Token 加 500 个可见 Token 的请求成本约为 0.26 美元——而未启用思考时仅为 0.013 美元左右。这意味着单次调用的成本增加了 20 倍。

延迟使问题更加复杂。扩展思考模式通常会增加每次请求的等待时间,在高预算配置下,平均延迟甚至达到了 2 到 3 分钟的范围。对于有响应时间要求的面向用户的服务,仅凭这一点就可以在不考虑成本的情况下排除推理模型。

能源消耗也遵循类似的曲线。平均而言,推理模型消耗的能量大约是非推理响应的 30 倍,在处理复杂问题时,最坏情况下的倍数可达 700 倍。在大规模应用中,这在经济效益和可持续发展承诺方面都非常重要。

这并不意味着推理模型是浪费的。它意味着它们需要一种许多用例无法提供的合理性证明。

任务分类

研究对于哪些任务类型受益于扩展思维链、哪些任务不受益的结论相当一致。分界线在于任务是否真正需要顺序的、回溯性的推理——还是只需要模式匹配、检索和流畅的综合,而这些标准模型已经处理得很好了。

推理值得溢价的任务:

多步数学和形式推理。 这是最强有力且最常被复现的研究结果。思维链提示词将 PaLM 540B 在 GSM8K 上的准确率从 17.9% 提升到了 58.1%。像 o3 这样的推理模型在竞争性数学基准测试中得分超过 88%,而标准模型在 60–65% 左右达到瓶颈。这种改进不是边际性的——对于需要跨多个步骤携带中间结果的问题,这是一种定性的能力转变。

复杂的代码生成和调试。 推理模型擅长同时处理多个约束条件的任务:在不破坏接口的情况下重构大型代码库、识别安全关键逻辑中的边缘案例、设计满足冲突需求的架构。在包含真实世界 GitHub Issue 的 SWE-bench Verified 上,o3 和 o4-mini 均超过了 68%——而在这一基准测试中,标准模型的得分更接近 30–40%。

对抗性约束满足。 对于具有竞争性要求的题目,如果天真地优化一个目标会破坏另一个目标,那么扩展思考所带来的回溯能力将大有裨益。法律条款分析、符合多个重叠法规的合规性审查,以及必须从冲突信号中推断意图的模糊指令解析,都属于这一范畴。

科学推理和多文档综合。 GPQA Diamond(研究生水平的科学问题)是 o3 得分超过 83% 的基准测试,而标准模型的得分要低得多。当你必须调和相互矛盾的来源并得出站得住脚的结论时,多文档综合也能从中受益。

推理不值得溢价的任务:

分类。 在分类任务中使用“让我们一步步思考”会产生冗长的推理链,最终得出的答案与直接提示词在 50 个 Token 内得出的答案相同。一项分析发现,在大多数模型任务配对中,推理对分类任务的准确性没有统计学上的显著提升。成本倍增是真实的,但质量提升并非如此。

总结。 将一个或一组文档浓缩为关键点并不需要通过搜索空间进行回溯。标准模型在这方面已经非常出色,扩展推理会增加 Token 开销,但不会在摘要质量或忠实度上有明显的提升。

检索增强问答(RAG)。 当答案存在于上下文中时,回答事实性问题本质上是一个查找任务。模型需要定位并转述相关信息——而不是从前提推理出结论。推理增加了成本,但并没有解决实际的故障模式(答案缺失时的幻觉、引用错误、上下文溢出),这些问题需要不同的解决方案。

常规内容生成。 博客文章、营销文案、邮件草稿和类似任务涉及对已知模式的流畅合成。输出主要根据风格和连贯性进行评估,而不是逻辑正确性。标准模型可以很好地处理这些任务;推理模型则大材小用。

实践中的经验法则:如果任务有一个客观正确的答案,且需要链接多个相互依赖的步骤,那么推理模型可能值得。如果任务本质上是“你能多好地利用你对该领域的了解”,那么它们可能不值得。

过度思考的代价

基准测试可能会掩盖一个重要的细微差别:扩展推理并不总是单调地提高准确性。性能随着思考预算的增加而提高,直到达到某个适合任务的上限,然后趋于平稳,甚至可能下降。

其机制是错误累积。较长的推理链有更多机会引入错误的中间结论,而后续步骤则以此为基础。对于简单问题,推理链会生成不必要的冗长描述,有时会在原本没有困惑的地方引入混乱。一个已被证实的模式是,o1 及类似模型偶尔会在显然不需要深度推理的简单问题上消耗过多的计算资源——在某些情况下,其输出甚至比直接提示(direct prompt)的效果更差。

这意味着即使是受益于推理的任务,不加区分地使用最大思考预算也不是最优选择。从最小思考预算开始(例如 Claude 扩展思考的 1,024 个 token)并针对特定的任务类别向上校准,比默认最大化更有效。

路由架构

这种分类法的实际意义在于,你不希望由单一模型处理所有流量。你需要一个路由层,将复杂查询发送给推理模型,将简单查询发送给更快、更便宜的替代方案。

基于分类器的路由(Classifier-based routing) 是应用最广泛的方法。一个微调的小模型(BERT 规模,约 1.1 亿参数)预测查询需要哪个级别的模型。这些分类器基于类似 Chatbot Arena 的偏好对数据进行训练,仅增加 10–30ms 的延迟,却能实现大幅节省。加州大学伯克利分校的开源项目 RouteLLM 证明,在保持 95% GPT-4 质量的情况下,MT-Bench 的成本降低了 85%,而在 MMLU 和 GSM8K 等更结构化的基准测试中,成本降低了 35–46%。

基于信号的路由(Signal-based routing) 利用查询本身的启发式特征,无需独立模型。有用的信号包括:

  • 查询中出现的数学符号
  • 多步骤表述(“首先... 然后... 最后...”)
  • 超过阈值的查询长度
  • 与推理密集型任务相关的领域关键词(形式验证、算法设计、安全分析)
  • 歧义标记(“澄清”、“解决冲突”、“已知 X 但也有 Y”)

这些启发式方法速度很快,且不需要模型推理,但会遗漏细微的情况。当你拥有高置信度信号时,它们非常适合作为第一道过滤。

级联路由(Cascade routing) 从较便宜的模型开始,评估响应的置信度,如果置信度低,则升级到推理模型。推理模型会产生惊人的强不确定性信号,结合自洽性检查(self-consistency checks)的混合估计器仅需两个样本就能将路由 AUROC 提高约 12 点。缺点是延迟:如果你频繁升级,就会在推理模型的延迟之上叠加廉价模型的延迟,这可能比直接使用推理模型更糟。级联路由在大多数请求不需要升级时效果最好。

结合这些方法的生产部署报告显示,LLM 总成本降低了 40–46%,简单查询的延迟改善了 32–38%,因为这些查询现在在更快的模型上运行。

实践落地

如果你正在决定从哪里开始,以下几条原则适用于大多数代码库:

路由前先审计。 在构建路由基础设施之前,记录生产查询样本并手动分类。大多数团队发现 60–80% 的流量可以明确归类为“不需要推理”。了解你的流量分布可以告诉你路由投资的价值。

在可用时使用自适应思考。 较新的推理模型 API 提供了多种模式,模型可以根据查询复杂度决定是否以及应用多少扩展思考。这比混合工作负载下的固定预算更高效,因为模型不会花费 2,000 个思考 token 来叙述显而易见的步骤。

在 API 边界拆分任务类型。 与其在单个端点内进行路由,不如考虑为不同的任务类型设置不同的服务路径——一个用于文档摘要和分类的端点路由到标准模型,另一个用于代码生成和分析的端点路由到推理模型。这使得路由决策显式化且可审计,而不是埋在分类器中。

测试过度思考。 对于你考虑使用扩展思考的任何任务类型,在代表性样本上运行不同思考预算的消融实验(ablations)。如果准确率在达到最大预算之前就趋于平稳,那么你就是在为无法改善结果的 token 付费。

考虑缓存。 提示词缓存(Prompt caching)可以将输入 token 成本降低 80–90% 的重复前缀。结合选择性推理,它通常是最高杠杆的成本优化手段——尤其是当你的推理模型查询共享一个很长的系统提示词或上下文时。

核心决策

推理模型通常并不是更好的模型——它们只是在需要通过问题空间进行系统搜索的特定类别任务中表现更好。对于这些任务,成本溢价通常是合理的,且能力差距大到足以产生影响。对于其他一切任务,你是在为一个精心设计的内部独白付费,而它最终得出的结论与更简单的提示在极少 token 下得到的结果是一样的。

获得推理模型最高投资回报率(ROI)的团队,是那些将其视为专业工具而非通用升级的团队。他们进行外科手术式的路由,按任务类别校准思考预算,并监控过度思考惩罚——这种惩罚会将强大的能力变成昂贵的负担。获得最低 ROI 的团队则统一部署了推理模型,现在正面临着随使用量扩展的基础设施成本,却没有任何相应的质量提升。

理解任务分类才是核心工作。路由基础设施只是将你原本就能手动做出的决策自动化而已。

References:Let's stay in touch and Follow me for more thoughts and updates