当思考模型真正发挥作用时：生产环境推理算力的决策框架

2026年4月9日 · 阅读需 11 分钟

Software Engineer

有一项研究，研究人员要求一个推理模型比较两个数字：0.9 和 0.11。一个模型花了 42 秒才给出答案。数学计算只花了几毫秒。模型在剩下的 41.9 秒里都在进行糟糕的思考。它重新审视自己的答案，怀疑自己，重新考虑，最后得出了它在前三个 token 中就已经得出的正确结论。

这就是过度思考的问题，它并非个案。当你将推理侧计算（inference-time compute）不加区分地应用于不需要它的任务时，就会发生这种情况。

推理模型（o1、o3、DeepSeek R1、具有扩展思考能力的 Claude）的出现，代表了解决难题能力上的真正飞跃。但它也引入了一类新的生产错误：在快速、廉价的生成完全足够的情况下，部署了昂贵且缓慢的深思熟虑。正确做出这一决策，对于构建真正有效的 AI 系统正变得越来越核心。

推理侧计算到底做了什么

标准的 LLM 策略是在训练时进行扩展：更多的参数、更多的数据、更多的计算。推理模型颠覆了这个等式。它们不是在部署前投入计算，而是在处理每个请求时投入计算——在产生最终答案之前，生成内部思维链（CoT）、探索多条解决路径、从死胡同中回溯。

在困难的基准测试中，其结果是惊人的。使用推理侧缩放的模型在国际数学奥林匹克竞赛（IMO）预选赛中获得了 74% 的分数，而其非推理型对应的模型仅为 9%。在特定的推理任务中，只要给予足够的推理预算，小巧的 1B 参数模型可以超越未经缩放的 405B 模型。

但这种性能并非免费的。Token 经济学是严苛的：

这并不意味着你应该避免使用思考型模型。它的含义是，在没有路由策略的情况下部署它们，大约相当于用喷气发动机去过马路。

这种失败模式比简单的“推理需要更长时间”更为微妙。推理模型患有一种被称为“过度思考”的特定病症：它们在思维链的早期就找到了正确答案，然后却依然继续。

对长思维链模型的研究发现，在许多情况下，模型得出了正确的解决方案，然后引入了不确定性，接着重新探索替代方案，再重新验证最初的正确答案——整个过程都在消耗 token。在失败的案例中，模式则有所不同：模型固着在一个早期的错误路径上无法脱身，在错误的轨迹上耗尽了 token 预算。

这两种失败模式有着相同的根源：模型缺乏对何时已经思考足够的校准感知。人类可能会检查答案并感到自信，但推理模型没有内部的“充分性”信号。它们继续思考，是因为它们被训练去做的事情就是继续。

对生产系统的实际后果是，在分类任务上投入 16,000 个 token 的推理预算并不会产生更准确的分类。它会产生同样的答案——或者偶尔是一个更糟的答案——而成本却是原来的 15 倍。

在部署任何 AI 功能之前，核心问题是任务的复杂性是否证明了推理计算的合理性。以下是一个实用的分类法：

受益于扩展思考的任务：

不从扩展思考中受益的任务：

扩展思考反而有害的任务：

一个有用的启发式方法：如果一项任务能被人类专家在十秒钟的阅读内解决，推理模型就不太可能优于标准模型。只有在确实存在复杂性需要处理时，即答案并非显而易见、需要探索解决方案空间时，推理预算才会有所回报。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates