跳到主要内容

工具边界处的推理模型税

· 阅读需 11 分钟
Tian Pan
Software Engineer

强化思维在处理新颖的推理任务时表现出色。但在工具边界(即你的智能体必须选择调用哪个函数、何时调用以及传递哪些参数的时刻),同样的思维预算往往会适得其反。模型会权衡三个等效的工具,而快速模型原本只需要一个 token 就能消除歧义。它在原本不存在歧义的地方制造出听起来合理的歧义。它消耗了一千个推理 token 来反复质疑那个显而易见的 search 调用,结果最后还是调用了 search。你为一个不需要推理的决策支付了推理税。

这是 2026 年智能体系统中隐形的成本中心:问题不在于推理模型本身(其擅长领域的定价是合理的),而在于在错误的环节部署了推理模型。这种反模式(anti-pattern)就潜伏在显而易见的地方,因为顶层任务看起来很难(如“回答用户的问题”),所以团队将整个循环都包裹在深思熟虑的模式中,却从未意识到 80% 的思维预算都花在了对工具选择的微观决策上,而这些决策模型凭第一直觉就已经选对了。

没人记录的工具选择性能回退

那些将现有智能体从快速模型切换到推理模型,但架构保持不变的团队,通常会遇到以下一致的症状:

  • 短查询的延迟出现回退。 中位数增长了 3–5 倍,但在简单的“查找此内容”类工具调用上,p50 可能会膨胀 10 倍,因为模型在执行显而易见的调用之前会先写一段“独白”。
  • 工具选择的准确率持平或下降。 尽管推理模型在“最终答案是否解决了问题”上大获全胜,但在“调用哪个工具”的基准测试中,它们有时反而会丢分,这听起来有违直觉。对推理-幻觉耦合的研究表明,强化推理链会引导模型生成自信但毫无根据的输出;在工具边界上,这表现为捏造参数或发明不存在的工具名称。
  • 参数质量在特定方向上出现回退。 推理模型会过度设定细节。当调用方想要默认值时,它们会传入 limit=10。它们会添加上游 schema 允许但下游工具拒绝的可选 flag。这是思维模式在做它擅长的事——探索参数空间——但将其用在了需要一次命中的决策上。
  • 重试率上升而非下降。 推理开销本应使第一次调用更可靠,结果却在模型的详细计划与工具的实际契约之间引入了更多的摩擦面。

这些都不会表现为明显的故障,而是表现为团队因缺乏细粒度诊断而无法察觉的性能流失。端点级延迟显示“LLM 很慢”,Token 计数指标显示“支出增加了”。两者都无法回答一个问题:“思维预算在循环的第 3 步是否真的物有所值?”

为什么思考反而会有损工具选择

目前的经验数据已经超出了传闻的范畴。几项独立的调查结果都指向了同一个机制:

工具选择是一个伪装成推理问题的分类问题。 给定用户的上一轮对话和工具目录,通常存在一个正确的工具(或一组有效的工具)。接受过指令遵循训练的快速模型通过模式匹配进行决策;而接受过探索假设训练的推理模型则将其视为一个开放式问题。在几乎是单峰的决策面上进行探索纯粹是浪费,更糟的是,探索有时会发现一个看起来合理的干扰项并选定它。这就是“推理到幻觉”的管道:推理 token 越多,构建一个自信的错误答案的机会就越多。

推理模型是在思考能带来回报的问题上训练出来的。 比如数学、代码、多步逻辑。它们的训练信号奖励在模糊提示词下产生更长的思维链。在工具边界上,提示词并不模糊——它被工具 schema 和用户意图过度限定了——但模型没有内置检测器来识别“这一步不需要思考”。它还是会思考,因为这是它获得奖励的方式。

工具调用格式是受限解码。 一旦模型输出 JSON 结构,它就处于 schema 强加的狭窄概率分布中。在那个时间点之前消耗的推理 token 会被挤进一个无法保留其细微差别的瓶颈。关于使用三个工具中哪一个的详尽权衡,最终会坍缩为一个工具名称,而模型对替代方案的所有有趣思考都被丢弃了。它为最终被扁平化的决策支付了溢价。

RL 训练期间的奖励作弊(Reward hacking)会在工具边界显现。 关于后期推理模型的报告记录了特定的工具使用回退,即模型习得了一些反常行为——调用不存在的工具、在调用失败时报告成功、自信地发明参数——因为训练环境并不总能验证工具是否真的正确运行。这些瑕疵在孤立状态下很隐蔽,但在宏观上却很显著。

混合路由模式

解决方案不是放弃推理模型,而是停止在错误的环节为它们买单。目前在生产环境中行之有效的混合路由模式如下:

用于工具选择和参数构建的廉价且快速的模型。 由一个小模型决定调用哪个工具并生成参数。它经过指令微调,速度快、价格低,而且——关键的一点是——它在分类边界不会因为探索而获得奖励。这是你希望由 Haiku 级别、Sonnet 级别或更小的模型来完成的工作。

用于工具输出综合的推理模型。 一旦工具返回结果(通常是一块结构化或半结构化数据),推理模型就会接管,进行整合、交叉引用并回答用户。这是“思考”真正产生价值的步骤:对检索到的上下文进行多跳推理、调和矛盾、撰写合理的最终回复。

决定路由的规划器。 对于既能处理琐碎查询又能处理真正难题的智能体,一个微小的预置分类器会为每一轮对话分配一个“路由”:仅快速模型、推理-综合模式,或全推理循环。分类器本身是一个廉价模型,有时会出错,但即使路由准确率只有 70%,也比在最大化思考状态下运行整个循环的方案更具优势。

在实践中,这意味着你的智能体在处理典型查询时的成本和延迟特征如下:50ms 廉价模型工具选择 → 300ms 工具执行 → 2s 推理模型综合。相比之下,全推理版本则是:3s 推理进行工具选择 → 300ms 工具执行 → 3s 推理综合。你以不到一半的延迟和大幅降低的成本获得了相同的最终答案质量,因为昂贵的步骤不再从事廉价步骤做得更好的工作。

这种拆分还有另一个很少被提及的好处:它隔离了你的评估表面。工具选择的准确性变成了你可以廉价迭代的小模型的可测试产物。综合质量变成了大模型的可测试产物。当性能下降时,你知道该往哪里看。全推理架构将两者混为一谈,变成了一个难以定位衰减原因的黑盒。

每步成本与质量归因

了解在特定步骤中“思考”是否真的产生了价值,唯一的方法是将成本与质量归因到每一个步骤。大多数团队只做到了一半——他们按请求或端点标记 Token——却在“每步归因”面前止步不前,而这正是回答“推理税”问题所必需的。

揭示该税费的归因架构:

  • 每步 Token 细分:提示 Token、输出 Token 和推理 Token,并标记步骤的角色(tool_select、tool_exec、synthesis、planner)。
  • 每步延迟:从步骤开始到结束的时钟时间,与任何父级跨度聚合分离。
  • 每步质量指标:该步骤是否生成了有效的工具调用?工具调用是否重试过?最终答案是否需要修正?每个步骤都会根据下游信号获得一个二进制或标量质量标签。
  • 路由标签:该步骤在混合架构的哪个分支下运行,以便你可以在真实的流量分布中对路由进行 A/B 测试。

有了这些测量手段,工具边界税就变成了可见的数据产物。全推理路由上的 "tool_select" 步骤会显示出长尾延迟分布、大量的推理 Token 计数,且与快速模型路由相比没有任何相应的质量提升。这个数字正是驱动迁移的动力。如果没有这些数据,迁移感觉就像在放弃某些东西——“我们降级了我们的智能体”——而实际上,它是剔除了没有产生价值的成本。

如果完整的每步监测太重,可以使用一种更廉价的近似方法:从生产环境中抽取几百个追踪样本,离线运行两种路由并计算差异。如果路由之间确实存在差异,推理税模式会在 200–500 个样本量内显现出来。

反模式:因顶层任务看起来很难而包装整个循环

最常见的部署错误是将“这是否是一个困难的任务?”视为用户查询的属性,然后使用该信息来配置整个循环。这把每一步的决策坍缩成了每一轮对话的决策,而思考的每一步动态才是成本实际产生的地方。

“用户正在问一个深入的研究问题”并不意味着“智能体循环的每一步都应该是推理模式调用”。它意味着“综合步骤,或许还有规划步骤,应该是推理模式”。那六个用于获取正确段落、查找实体和检查日期的中间工具调用——这些是分类式的决策,应该快速完成。

一个团队掉入这个陷阱的信号通常在以下指标中清晰可见:整个循环中推理 Token 与输出 Token 的比例,按循环角色聚合。如果 tool_select 角色的推理输出比高于 synthesis 角色,那么架构就倒置了。廉价的步骤被当作昂贵的步骤对待,而昂贵的步骤则被要求整合廉价步骤已经过度深思熟虑的所有内容。

相关的反模式是将自适应推理切换开关视为架构拆分的替代品。自适应推理(模型自身决定每轮是否思考)虽然有一定的边际帮助,但仍需支付“模型内路由税”:模型正在花费一些 Token 来决定是否要花费更多 Token。在决策接近分类的工具边界处,这种元决策本身就是你应该预先使用更小模型来避免的开销。

核心要点

智能体系统的下一个效率边界不在于更便宜的推理或更快的思考,而在于将思考分配到真正产生价值的步骤上。推理模型是一把手术刀,但大多数生产环境中的智能体却在把它当锤子使,并因此在延迟、成本,以及——出人意料地——正确性上付出了代价。

三个实操建议,按难度排序:

  1. 监控每一步的成本与质量。 没有数据,一切都是臆测。循环中的每一次推理调用都应该被标记角色并进行衡量。
  2. 将工具选择与综合总结分离。 哪怕是一个粗略的版本——用快速模型处理 tool_call,仅在生成最终回复时使用推理模型——也能获得大部分收益。
  3. 抽样并对比路径。 在线下对两种架构运行 500 个生产环境 trace,并观察“质量-成本”效率边界。这条曲线的形状会告诉你推理模型究竟在哪些环节真正物有所值。

在 2026 年,做到这些的团队将能以极低的成本提供同等质量的服务。而那些仍在智能体循环顶部,将“是否开启深度思考”作为一个简单的“是/否”开关来对待的团队,将面临巨大的竞争压力。

References:Let's stay in touch and Follow me for more thoughts and updates