智能体循环中的推理模型溢价：何时“思考”值得，何时不值得

2026年4月10日 · 阅读需 12 分钟

Software Engineer

在为你的智能体（agent）采用推理模型之前，有一个数字值得你深思：对于一个标准的快速模型，单次查询仅需 7 个 token，但在 Claude extended thinking 中则需要 255 个 token，而在配置激进的推理模型中更是高达 603 个 token。对于孤立的聊天机器人查询来说，这还是可以接受的。但在一个每项任务调用模型 12 次的智能体循环中，你支付的不只是 10 倍的溢价 —— 而是 10 倍溢价乘以 12，并且随着每一轮重新喂入不断增长的上下文窗口，成本还会进一步复现。账单带来的“惊喜”扼杀智能体项目的速度往往比准确性问题还要快。

问题不在于推理模型是否更好。在处理困难任务时，它们显然更出色。问题在于，推理模型是否更适合你的特定工作负载，是否更适合你在智能体循环中的特定位置，以及其提升的幅度是否足以抵消成本。大多数团队在这两个方向上都做出了错误的回答 —— 他们要么统一采用推理模型（在不需要它们的任务上浪费预算），要么完全避开它们（错失了在需要它们的任务上提升准确性的机会）。

为什么推理模型在智能体场景下的成本要高得多

推理模型实现了研究人员所说的“推理时计算扩展”（test-time compute scaling）：在生成最终答案之前，模型会生成一段很长的内部思维链 —— 即思考 token（thinking tokens）—— 然后再据此行动。这些 token 是真实的 API 费用，也是真实的 GPU 周期。模型不仅仅是在和你交谈；它在回答之前还在“大声地”梳理问题。

在标准的单轮设置中，这种开销在每次查询中是固定的。但在智能体循环中，开销会以两种方式复合。

首先，智能体循环涉及多次连续的 LLM 调用，每一次都会继承前一次的对话历史。一个运行 10 次迭代的 Reflexion 风格循环消耗的 token 可能是单次线性传递的 50 倍。当每一次传递都包含推理前导时，实际的成本乘数要比单次调用的 token 计数所显示的要高得多。

其次，智能体任务往往运行在更长的输入上。工具输出被追加到上下文中，检索到的文档被注入其中。每一次后续调用都会因为输入变大而变得更加昂贵 —— 而且推理模型在更长、更复杂的输入上会产生比例更高的思考 token。

关于动态推理对基础设施影响的研究发现，与单轮推理相比，运行在 8B 模型上的智能体每次查询所需的 GPU 能量要高出 62 到 136 倍。在每一步都使用推理模型扩展到生产规模，这已经不再是定价问题，而是一个基础设施架构问题。

推理模型在哪些方面能真正发挥作用

推理模型能够提供可衡量的、持久改进的案例通常具有共同的结构：任务要求模型同时处理多个约束条件，做出影响后续步骤的决策，并在早期假设被证明错误时能够从容地恢复。

多步规划与任务分解。 当任务需要将复杂目标分解为相互依赖的子任务时 —— 例如预订具有签证要求的行程、撰写并安排跨五个服务的数据库迁移 —— 推理模型的表现显著优于标准模型。研究表明，在规划智能体中加入思维链推理，比没有显式推理的同一模型成功率提高了 4 个百分点以上；而一个 8B 的推理增强模型在网络导航任务上的表现甚至达到了非推理 70B 模型的水平。在长周期规划方面，推理是比单纯扩大模型规模更好的投资。

软件工程与代码生成。 SWE-bench 排行榜被启用了推理的系统所占据。在经验证的基准测试中，高推理配置的得分在 80 分中高段，而标准模型则明显处于较低的平台期。对于涉及调试陌生代码库、实现带有边界条件的算法解决方案，或在多个文件中产生架构一致的更改等任务，准确性差距是持续且巨大的。

科学与形式推理。 医学鉴别诊断、具有司法管辖区细微差别的法律分析、具有条件约束的财务建模 —— 这些任务类型从推理中受益，因为给出确信但错误的答案代价很高，而通往正确结果的路径需要同时考虑许多事实。推理模型在做出最终答案之前愿意修正自己的中间步骤，这正是减少这些领域中“确信的错误”的机制。

在廉价流程中的高风险单次决策。 即使整体工作流很简单，通常也会有一两个决策点，如果出错，代价将是昂贵的或不可逆的。一个主要使用快速模型进行路由的客户支持流程，可能仍会专门针对确定是否退款或升级到法律审查的步骤，将其路由到推理模型。

推理模型不划算的场景

过度使用推理模型的失效模式是：为那些本不需要深思熟虑的任务支付了高昂的“思考”成本。

反应式动作执行。 一旦计划形成，当前步骤是“使用此查询调用搜索 API”或“将此字符串写入该文件”，推理标记（reasoning tokens）就毫无用处了。该动作是确定性的。快速模型能以与推理模型相当的可靠性生成正确的函数调用，而成本仅为后者的一小部分。这是智能体系统中常见的预算泄露：在流水线的每个节点都放置了推理模型，而实际上只有一两个节点需要它。

短时界、低歧义的查询。 事实检索、类别明确的分类任务、从结构化文档中提取信息——标准模型在处理这些任务时，其表现几乎与推理模型持平。关于“计划与行动”（plan-and-act）框架的研究明确指出：在简单的导航任务中，为标准模型增加一倍的轨迹数据仅能将准确率提高 0.61%，而推理增强带来的收益同样微乎其微。这些任务存在性能天花板，而推理并不能抬高这个上限。

延迟敏感型应用。 语音 AI 流水线的目标是首音输出（time-to-first-audio）低于 300 ms。交互式 UI 流程期望在 1 秒内做出响应。推理模型通常会为每次调用增加数秒的延迟——对复杂输入的深入思考可能需要 10 到 30 秒。如果你的应用对延迟的 SLA（服务等级协议）要求比推理模型的中值响应时间还要紧凑，那么无论准确率如何，该模型层级对于这项工作来说都是错误的。

早期迭代与原型开发。 推理模型会掩盖提示词工程（prompt engineering）的债务。它会补偿那些描述不充分的指令和模糊的工具模式（tool schemas），而快速模型则会通过失败将这些问题暴露出来。如果团队仅使用推理模型进行原型开发，随后发现切换到标准模型层级时一切都无法运行，那么他们并没有构建出一个产品；他们只是构建了一个需要昂贵基础设施才能运作的演示（demo）。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

智能体循环中的推理模型溢价：何时“思考”值得，何时不值得

为什么推理模型在智能体场景下的成本要高得多

推理模型在哪些方面能真正发挥作用

推理模型不划算的场景

Recommended Reading

关于 Tian Pan

为什么推理模型在智能体场景下的成本要高得多​

推理模型在哪些方面能真正发挥作用​

推理模型不划算的场景​

Recommended Reading

关于 Tian Pan

为什么推理模型在智能体场景下的成本要高得多

推理模型在哪些方面能真正发挥作用

推理模型不划算的场景