当思考模型真正发挥作用时:生产环境推理算力的决策框架
有一项研究,研究人员要求一个推理模型比较两个数字:0.9 和 0.11。一个模型花了 42 秒才给出答案。数学计算只花了几毫秒。模型在剩下的 41.9 秒里都在进行糟糕的思考。它重新审视自己的答案,怀疑自己,重新考虑,最后得出了它在前三个 token 中就已经得出的正确结论。
这就是过度思考的问题,它并非个案。当你将推理侧计算(inference-time compute)不加区分地应用于不需要它的任务时,就会发生这种情况。
推理模型(o1、o3、DeepSeek R1、具有扩展思考能力的 Claude)的出现,代表了解决难题能力上的真正飞跃。但它也引入了一类新的生产错误:在快速、廉价的生成完全足够的情况下,部署了昂贵且缓慢的深思熟虑。正确做出这一决策,对于构建真正有效的 AI 系统正变得 越来越核心。
推理侧计算到底做了什么
标准的 LLM 策略是在训练时进行扩展:更多的参数、更多的数据、更多的计算。推理模型颠覆了这个等式。它们不是在部署前投入计算,而是在处理每个请求时投入计算——在产生最终答案之前,生成内部思维链(CoT)、探索多条解决路径、从死胡同中回溯。
在困难的基准测试中,其结果是惊人的。使用推理侧缩放的模型在国际数学奥林匹克竞赛(IMO)预选赛中获得了 74% 的分数,而其非推理型对应的模型仅为 9%。在特定的推理任务中,只要给予足够的推理预算,小巧的 1B 参数模型可以超越未经缩放的 405B 模型。
但这种性能并非免费的。Token 经济学是严苛的:
- 在同类任务中,推理模型生成的 token 数量是直接回答模型的 3–10 倍
- o3 级别的模型每个请求的成本大约是非推理型对应模型的六倍
- 复杂问题的首个 token 响应时间(TTFT)可能超过五分钟
- 随着规模的扩大,推理成本的增长快于请求量,因为推理任务触及了成本分布中昂贵的一端
这并不意味着你应该避免使用思考型模型。它的含义是,在没有路由策略的情况下部署它们,大约相当于用喷气发动机去过马路。
过度思考的陷阱
这种失败模式比 简单的“推理需要更长时间”更为微妙。推理模型患有一种被称为“过度思考”的特定病症:它们在思维链的早期就找到了正确答案,然后却依然继续。
对长思维链模型的研究发现,在许多情况下,模型得出了正确的解决方案,然后引入了不确定性,接着重新探索替代方案,再重新验证最初的正确答案——整个过程都在消耗 token。在失败的案例中,模式则有所不同:模型固着在一个早期的错误路径上无法脱身,在错误的轨迹上耗尽了 token 预算。
这两种失败模式有着相同的根源:模型缺乏对何时已经思考足够的校准感知。人类可能会检查答案并感到自信,但推理模型没有内部的“充分性”信号。它们继续思考,是因为它们被训练去做的事情就是继续。
对生产系统的实际后果是,在分类任务上投入 16,000 个 token 的推理预算并不会产生更准确的分类。它会产生同样的答案——或者偶尔是一个更糟的答案——而成本却是原来的 15 倍。
路由决策框架
在部署任何 AI 功能之前,核心问题是任务的复杂性是否证明了推理计算的合理性。以下是一个实用的分类法:
受益于扩展思考的任务:
- 多步骤数学推理(证明、优化问题、带约束的财务建模)
- 涉及多个交互系统或非显而易见算法选择的复杂代码生成
- 需要在多个章节之间追踪矛盾的长文档综合
- 具有硬约束且朴素方法失效的规划问题
- 训练数据中没有太多先例的新型问题表述
不从扩展思 考中受益的任务:
- 文本分类、情感分析、意图检测
- 从结构化或半结构化文档中提取信息
- 关键点明确的摘要
- 答案在上下文中、仅需要格式化而非推导的检索增强生成(RAG)
- 非推理模型在你的评估中已经达到可接受准确度的任何任务
扩展思考反而有害的任务:
- 关注 p99 延迟的实时或交互式应用
- 按 token 付费且利润空间有限的高吞吐量流水线
- 简单的字符串转换、实体归一化或模式映射
- “错误”答案源于过度思考的任务:推理模型有时会因为对确定的初始结论进行过度限定而引入错误
一个有用的启发式方法:如果一项任务能被人类专家在十秒钟的阅读内解决,推理模型就不太可能优于标准模型。只有在确实存在复杂性需要处理时,即答案并非显而易见、需要探索解决方案空间时,推理预算才会有所回报。
- https://platform.claude.com/docs/en/build-with-claude/extended-thinking
- https://magazine.sebastianraschka.com/p/state-of-llm-reasoning-and-inference-scaling
- https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
- https://arxiv.org/html/2505.23480v1
- https://labs.adaline.ai/p/inside-reasoning-models-openai-o3
- https://www.amazon.science/blog/the-overthinking-problem-in-ai
- https://introl.com/blog/inference-time-scaling-research-reasoning-models-december-2025
- https://arxiv.org/html/2509.23392v3
