生产环境中的推理模型:何时获益,何时受损
一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。
这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中,o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价,使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。
推理模型有何不同
“推理模型”这个术语已经变得模糊,但在架构上它描述了一些具体的东西。标准的指令(instruct)模型 —— GPT-4o、Claude Haiku、Gemini Flash —— 会接收你的提示词并立即开始逐个 token 生成响应。智能被固化在权重中;模型进行一次前向传递。
推理模型在推理时将思维链 (chain-of-thought)移动到了模型内部。在生成可见响应之前,它们会运行长时间的内部迭代 —— 搜索解空间、测试假设、回溯。你在为第一可见 token 出现之前的推理计算付费。
目前有两种实现模式。隐藏推理(o 系列)在内部运行思考过程;你只能看到最终答案,但需要为推理 token 付费。可见推理(DeepSeek R1、Claude extended thinking、Gemini 2.5 thinking)则将思维链作为可检查的追踪轨迹呈现出来 —— 这对调试以及与希望了解模型推导结论过程的用户建立信任非常有用。
来自近期研究的关键架构见解是:基座模型已经知道如何推理。推理模型并不是通过训练获得了根本上的新能力 —— 它们是学会了何时部署已有的推理能力,并经过训练能够根据问题难度分配思考深度。在低努力设置下,它们的行为更像指令模型。在高努力设置下,它们会消耗大量计算资源来探索解空间。
它们真正的胜场
在真正困难的多步问题上,性能差距是真实且巨大的。一些具体数据:
在 AIME 2024(竞赛数学考试)中,GPT-4o 得分为 12%。o1 得分为 83.3%。o3 得分为 96.7%。这不只是边际提升 —— 这是一个模型“无法解决问题”与“能够解决问题”之间的质变。
对于研究生水平的科学问题(涵盖化学、物理和生物的 GPQA Diamond),o3 得分为 87.7%。标准的指令模型在该基准测试中通常落在 50-60% 的区间。
对于 SWE-Bench Verified 上的智能体编程,o3 达到了 69.1%,而 Claude 的最新模型更是突破了 72%。这些任务要求模型理解代码库、识别漏洞根源 、实现修复并编写测试 —— 这是真正的多步骤任务,需要跟踪真实的中间状态。
规律是一致的:推理模型在需要在解空间内搜索的任务中获胜 —— 即存在多种候选方案、中间步骤的错误可能产生级联影响、正确答案需要假设测试和回溯的场景。例如:研究生水平的数学、竞赛编程、具有依赖关系的多步规划、具有多种有效解释的模糊指令。
如果你的任务具有这种结构,那么推理模型就值得这些成本。能力差距并非基准测试的随机波动。
它们的败场
失败模式比“推理模型太贵”更为微妙。在某些任务类型中,它们反而会产生负面影响。
对于那些需要模式识别而非搜索的单一正确答案任务 —— 如分类、实体提取、翻译、摘要 —— 推理过程不仅没有帮助,反而可能引入错误。模型在得出正确答案后仍会继续推理,生成多余的验证步骤,有时甚至会覆盖正确的中间结果。如果你问推理模型“0.9 和 0.11 哪个更大?”,它可能会花 20 多秒生成不必要的验证,偶尔还会把自己从正确答案带偏。
对于高流量流水线,延迟计算变得难以为继。在大多数供应商中,推理模型的首字延迟(time-to-first-token)在 2 到 10 秒之间(o3 在独立基准测试中约为 6.5 秒)。如果一个流水线使用推理模型处理 100 万条记录,每个查询耗时 30 秒,大约需要一年的时间。这不只是部署层面的担忧 —— 这是一个产品设计层面的约束。除非经过大规模并行化且有预算上限,否则推理模型不属于批处理流水线。
对于有亚秒级 SLA 预期的用户侧应用,即使是带 有隐藏思考的流式传输也只能起到部分作用。你可以从响应流中隐藏思考 token,让文本更早开始流动 —— 但你仍需为此付费,而且在完成足够的思考之前,响应不会开始。
隐藏的 Token 问题
推理的计费模式是最让工程师感到意外的部分。当你发送 50 个输入 token 并接收到 100 个可见的输出 token 时,你最终可能被收取 650 个 token 的费用 —— 其中 500 个是从未出现在响应中的隐藏推理 token。
在高努力度(high effort)下,推理 token 的数量会让可见响应相形见绌。一项独立评估发现,o3 在 7 个基准测试中生成了 4400 万个 token,单次评估运行的成本超过 2700 美元。一个在标准模型上花费 0.02 美元的复杂代码审查,在使用默认设置的推理模型上可能花费 0.15-0.20 美元。
成本结构是非线性的。在低努力度设置下,o 系列推理模型与 GPT-4o 同类产品的价格相当甚至更便宜。在高努力度下,成本会急剧分化。努力度/预算参数并不是一个质量调节旋钮 —— 它是一个成本调节旋钮。如果在不了解成本范围的情况下将其视为“为重要任务设置高参数”,团队最终会遇到 10 倍的账单惊喜。
实践建议:从最低预算开始(对于 Claude 的 API 是 1,024 个思考 token),进行准确率基准测试,然后只增加到达到准确率目标为止。大多数生产任务在达到最大预算之前很久就进入了平台期。
