跳到主要内容

生产环境中的推理模型:何时获益,何时受损

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。

这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中,o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价,使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。

推理模型有何不同

“推理模型”这个术语已经变得模糊,但在架构上它描述了一些具体的东西。标准的指令(instruct)模型 —— GPT-4o、Claude Haiku、Gemini Flash —— 会接收你的提示词并立即开始逐个 token 生成响应。智能被固化在权重中;模型进行一次前向传递。

推理模型在推理时将思维链(chain-of-thought)移动到了模型内部。在生成可见响应之前,它们会运行长时间的内部迭代 —— 搜索解空间、测试假设、回溯。你在为第一可见 token 出现之前的推理计算付费。

目前有两种实现模式。隐藏推理(o 系列)在内部运行思考过程;你只能看到最终答案,但需要为推理 token 付费。可见推理(DeepSeek R1、Claude extended thinking、Gemini 2.5 thinking)则将思维链作为可检查的追踪轨迹呈现出来 —— 这对调试以及与希望了解模型推导结论过程的用户建立信任非常有用。

来自近期研究的关键架构见解是:基座模型已经知道如何推理。推理模型并不是通过训练获得了根本上的新能力 —— 它们是学会了何时部署已有的推理能力,并经过训练能够根据问题难度分配思考深度。在低努力设置下,它们的行为更像指令模型。在高努力设置下,它们会消耗大量计算资源来探索解空间。

它们真正的胜场

在真正困难的多步问题上,性能差距是真实且巨大的。一些具体数据:

在 AIME 2024(竞赛数学考试)中,GPT-4o 得分为 12%。o1 得分为 83.3%。o3 得分为 96.7%。这不只是边际提升 —— 这是一个模型“无法解决问题”与“能够解决问题”之间的质变。

对于研究生水平的科学问题(涵盖化学、物理和生物的 GPQA Diamond),o3 得分为 87.7%。标准的指令模型在该基准测试中通常落在 50-60% 的区间。

对于 SWE-Bench Verified 上的智能体编程,o3 达到了 69.1%,而 Claude 的最新模型更是突破了 72%。这些任务要求模型理解代码库、识别漏洞根源、实现修复并编写测试 —— 这是真正的多步骤任务,需要跟踪真实的中间状态。

规律是一致的:推理模型在需要在解空间内搜索的任务中获胜 —— 即存在多种候选方案、中间步骤的错误可能产生级联影响、正确答案需要假设测试和回溯的场景。例如:研究生水平的数学、竞赛编程、具有依赖关系的多步规划、具有多种有效解释的模糊指令。

如果你的任务具有这种结构,那么推理模型就值得这些成本。能力差距并非基准测试的随机波动。

它们的败场

失败模式比“推理模型太贵”更为微妙。在某些任务类型中,它们反而会产生负面影响。

对于那些需要模式识别而非搜索的单一正确答案任务 —— 如分类、实体提取、翻译、摘要 —— 推理过程不仅没有帮助,反而可能引入错误。模型在得出正确答案后仍会继续推理,生成多余的验证步骤,有时甚至会覆盖正确的中间结果。如果你问推理模型“0.9 和 0.11 哪个更大?”,它可能会花 20 多秒生成不必要的验证,偶尔还会把自己从正确答案带偏。

对于高流量流水线,延迟计算变得难以为继。在大多数供应商中,推理模型的首字延迟(time-to-first-token)在 2 到 10 秒之间(o3 在独立基准测试中约为 6.5 秒)。如果一个流水线使用推理模型处理 100 万条记录,每个查询耗时 30 秒,大约需要一年的时间。这不只是部署层面的担忧 —— 这是一个产品设计层面的约束。除非经过大规模并行化且有预算上限,否则推理模型不属于批处理流水线。

对于有亚秒级 SLA 预期的用户侧应用,即使是带有隐藏思考的流式传输也只能起到部分作用。你可以从响应流中隐藏思考 token,让文本更早开始流动 —— 但你仍需为此付费,而且在完成足够的思考之前,响应不会开始。

隐藏的 Token 问题

推理的计费模式是最让工程师感到意外的部分。当你发送 50 个输入 token 并接收到 100 个可见的输出 token 时,你最终可能被收取 650 个 token 的费用 —— 其中 500 个是从未出现在响应中的隐藏推理 token。

在高努力度(high effort)下,推理 token 的数量会让可见响应相形见绌。一项独立评估发现,o3 在 7 个基准测试中生成了 4400 万个 token,单次评估运行的成本超过 2700 美元。一个在标准模型上花费 0.02 美元的复杂代码审查,在使用默认设置的推理模型上可能花费 0.15-0.20 美元。

成本结构是非线性的。在低努力度设置下,o 系列推理模型与 GPT-4o 同类产品的价格相当甚至更便宜。在高努力度下,成本会急剧分化。努力度/预算参数并不是一个质量调节旋钮 —— 它是一个成本调节旋钮。如果在不了解成本范围的情况下将其视为“为重要任务设置高参数”,团队最终会遇到 10 倍的账单惊喜。

实践建议:从最低预算开始(对于 Claude 的 API 是 1,024 个思考 token),进行准确率基准测试,然后只增加到达到准确率目标为止。大多数生产任务在达到最大预算之前很久就进入了平台期。

路由解决方案

转向使用 GPT-4o 进行分类的团队这样做是正确的。但更老练的答案不是“选择一个模型”,而是构建一个路由层,将每个查询定向到合适的模型。

RouteLLM 风格的路由利用针对查询特征训练的轻量级分类器,在通用基准测试中已证明可降低 85% 以上的成本,同时保持顶级模型 95% 的质量。一个为分析型复杂查询预留推理模型的混合路由系统,在生产部署中实现了 LLM 总用量减少 40-46%,简单查询的延迟改善了 32-38%,整体成本降低了 39%。

路由分类器本身不需要是推理模型 —— 它需要快速对查询复杂度进行分类。这可以是一个微调的小模型、基于规则的过滤器,甚至是带有结构化提示词的快速指令(instruct)模型。信号通常可以从查询长度、数学符号的存在、多步骤表述(“首先……然后……然后……”)以及领域信号中明显看出。

GPT-5 本身现在内部也实现了这种模式,根据评估的复杂度在快速高效模型和深度推理模型之间路由查询。当模型提供商正在将模型级联(model cascades)构建到 API 层时,这是一个信号,表明这已成为生产系统的基本门槛。

混合规划模式

对于复杂的智能体(agentic)系统,最有价值的生产架构不是“全程使用推理模型”,而是将它们专门用作规划器(planners)。

推理模型擅长在解空间中搜索以生成计划:将目标分解为子任务、识别依赖关系、选择方法、编写编排逻辑。这种搜索只在开始时发生一次。而执行单个步骤 —— 调用特定 API、格式化输出、运行模板化查询、对单个记录进行分类 —— 是低歧义、重复性的,非常适合快速指令模型。

实践中:推理模型接收高级目标并生成结构化的任务计划。快速指令模型执行每个步骤。推理模型可选地审查最终输出或处理异常。规划器运行一次;执行器运行多次。成本随执行频率而增加,而非随思考深度而增加。

这与 Claude 的自适应思考如何为智能体循环设计相匹配:模型为模糊或高风险的决策点分配更多思考,为常规工具调用分配较少思考。你在重要的地方为推理付费,在不重要的地方跳过它。

提示词反模式

像使用指令模型那样使用推理模型的工程师会遇到一些常见问题。

少样本(few-shot)示例通常会降低推理模型的准确率,而它们本可以提高指令模型的准确率。模型的内部搜索过程会被基于示例的限制所干扰。在 DeepSeek R1 上,零样本(zero-shot)提示词在经验上优于少样本。如果你的直觉是通过添加示例来提高一致性,你可能是在用准确率换取熟悉感。

“一步步思考”(Think step by step)的指令是多余的。模型内部已经在这么做了。添加它会浪费 token 且没有收益。

引导指令模型的复杂系统提示词可能会限制推理搜索空间。保持系统提示词简短直接。推理模型默认会生成详尽的响应 —— 在需要时显式要求简洁。

推理模型的知识领域比广泛的指令模型窄。它们用通用世界知识的广度换取了推理深度。不要依赖通用知识回忆;要显式注入领域上下文。

最后:基准测试分数和你的数据是两回事。在修改后的谜题上进行的独立评估显示,推理模型在改编后的问题上得分比头条基准测试数字低 20-30 分。在投入使用前先针对你的数据进行测试。

构建工具的选择

实际的决策框架:

在以下情况下使用推理模型(Reasoning model):问题有多种候选方案、中间步骤的错误会产生连锁反应、正确性可验证,且延迟容忍度至少在 5-10 秒。例如数学计算、带有测试套件的代码生成、具有依赖关系的多步计划,以及那些你自然会思考几分钟后再回答的问题。

在以下情况下使用快速指令模型(Instruct model):任务属于分类、提取、翻译、摘要或事实查询;你每天处理的查询量超过几千次;延迟 SLA 要求在 2 秒以内;或者该任务是人类专家无需深思熟虑即可立即回答的任务。

在以下情况下构建路由层(Routing layer):你的应用程序处理具有不同复杂性的多样化查询类型。这种配置能让你在大多数查询中,以指令模型的成本获得接近巅峰的准确率。

推理模型生态系统正在快速演进——努力程度微调(Effort-level tuning)、自适应思考以及内置于 API 层的模型级联(Model cascades)都是相对较新的技术。能力差距可能会在某些任务上缩小,而在其他任务上扩大。不会改变的是底层的权衡:内部搜索需要消耗算力和时间。能从搜索中获益的任务应当为此付费,不能从搜索中获益的任务则不应该。

References:Let's stay in touch and Follow me for more thoughts and updates