推理模型经济学:思维链何时物有所值
一家中型 SaaS 公司的团队在阅读了一些基准测试后,在每个提示词中都加入了“让我们一步步思考”(let's think step by step)。他们的响应质量有了明显的提升——但他们的 LLM 账单也翻了三倍。当他们深入研究日志时,发现大部分额外的 Token 都花在了支持单分类和会议记录总结等任务上,而在这些任务中,额外的推理对输出质量并没有明显的改善。
扩展思考模型对于难题来说是真正的能力飞跃。但如果不加区别地应用,它们也是一个可靠的成本陷阱。一个经过良好调优的推理部署与一个昂贵的部署之间的区别通常归结为一点:理解哪些任务真正受益于思维链(chain-of-thought),而哪些任务只是在为显而易见步骤的冗长叙述买单。
成本现状
推理模型与标准模型之间的价格差距并不细微。OpenAI 的 o1 每百万输入 Token 的价格为 15 美元,每百万输出 Token 的价格为 60 美元——大约比 GPT-4o 贵 4 到 6 倍。Claude 的扩展思考模式(extended thinking mode)采用与标准输出相同的单 Token 费率,但思考 Token 很容易在每次请求中增加 2,000 到 10,000 个。在 Opus 上以最大思考预算运行时,一个产生 10,000 个思考 Token 加 500 个可见 Token 的请求成本约为 0.26 美元——而未启用思考时仅为 0.013 美元左右。这意味着单次调用的成本增加了 20 倍。
延迟使问题更加复杂。扩展思考模式通常会增加每次请求的等待时间,在高预算配置下,平均延迟甚至达到了 2 到 3 分钟的范围。对于有响应时间要求的面向用户的服务,仅凭这一点就可以在不考虑成本的情况下排除推理模型。
能源消耗也遵循类似的曲线。平均而言,推理模型消耗的能量大约是非推理响应的 30 倍,在处理复杂问题时,最坏情况下的倍数可达 700 倍。在大规模应用中,这在经济效益和可持续发展承诺方面都非常重要。
这并不意味着推理模型是浪费的。它意味着它们需要一种许多用例无法提供的合理性证明。
任务分类
研究对于哪些任务类型受益于扩展思维链、哪些任务不受益的结论相当一致。分界线在于任务是否真正需要顺序的、回溯性的推理——还是只需要模式匹配、检索和流畅的综合,而这些标准模型已经处理得很好了。
推理值得溢价的任务:
多步数学和形式推理。 这是最强有力且最常被复现的研究结果。思维链提示词将 PaLM 540B 在 GSM8K 上的准确率从 17.9% 提升到了 58.1%。像 o3 这样的推理模型在竞争性数学基准测试中得分超过 88%,而标准模型在 60–65% 左右达到瓶颈。这种改进不 是边际性的——对于需要跨多个步骤携带中间结果的问题,这是一种定性的能力转变。
复杂的代码生成和调试。 推理模型擅长同时处理多个约束条件的任务:在不破坏接口的情况下重构大型代码库、识别安全关键逻辑中的边缘案例、设计满足冲突需求的架构。在包含真实世界 GitHub Issue 的 SWE-bench Verified 上,o3 和 o4-mini 均超过了 68%——而在这一基准测试中,标准模型的得分更接近 30–40%。
对抗性约束满足。 对于具有竞争性要求的题目,如果天真地优化一个目标会破坏另一个目标,那么扩展思考所带来的回溯能力将大有裨益。法律条款分析、符合多个重叠法规的合规性审查,以及必须从冲突信号中推断意图的模糊指令解析,都属于这一范畴。
科学推理和多文档综合。 GPQA Diamond(研究生水平的科学问题)是 o3 得分超过 83% 的基准测试,而标准模型的得分要低得多。当你必须调和相互矛盾的来源并得出站得住脚的结论时,多文档综合也能从中受益。
推理不值得溢价的任务:
分类。 在分类任务中使用“让我们一步步思考”会产生冗长的推理链,最终得出的答案与直接提示词在 50 个 Token 内得出的答案相同。一项分析发现,在大多数模型任务配对中,推理对分类任务的准确性没有统计学上的显著提升。成本倍增是真实的,但质量提升并非如此。
总结。 将一个或一组文档浓缩为关键点并不需要通过搜索空间进行回溯。标准模型在这方面已经非常出色,扩展推理会增加 Token 开销,但不会在摘要质量或忠实度上有明显的提升。
检索增强问答(RAG)。 当答案存在于上下文中时,回答事实性问题本质上是一个查找任务。模型需要定位并转述相关信 息——而不是从前提推理出结论。推理增加了成本,但并没有解决实际的故障模式(答案缺失时的幻觉、引用错误、上下文溢出),这些问题需要不同的解决方案。
常规内容生成。 博客文章、营销文案、邮件草稿和类似任务涉及对已知模式的流畅合成。输出主要根据风格和连贯性进行评估,而不是逻辑正确性。标准模型可以很好地处理这些任务;推理模型则大材小用。
实践中的经验法则:如果任务有一个客观正确的答案,且需要链接多个相互依赖的步骤,那么推理模型可能值得。如果任务本质上是“你能多好地利用你对该领域的了解”,那么它们可能不值得。
过度思考的代价
- https://openreview.net/pdf?id=_VjQlMeSB_J
- https://arxiv.org/abs/2201.11903
- https://arxiv.org/abs/2210.09261
- https://arxiv.org/html/2410.10347v1
- https://arxiv.org/html/2603.19118
- https://www.vellum.ai/blog/claude-3-7-sonnet-vs-openai-o1-vs-deepseek-r1
- https://lunary.ai/blog/open-ai-o1-reasoning-models
- https://www.builder.io/blog/is-o1-worth-it
- https://blog.logrocket.com/llm-routing-right-model-for-requests/
