跳到主要内容

工具边界处的推理模型税

· 阅读需 11 分钟
Tian Pan
Software Engineer

强化思维在处理新颖的推理任务时表现出色。但在工具边界(即你的智能体必须选择调用哪个函数、何时调用以及传递哪些参数的时刻),同样的思维预算往往会适得其反。模型会权衡三个等效的工具,而快速模型原本只需要一个 token 就能消除歧义。它在原本不存在歧义的地方制造出听起来合理的歧义。它消耗了一千个推理 token 来反复质疑那个显而易见的 search 调用,结果最后还是调用了 search。你为一个不需要推理的决策支付了推理税。

这是 2026 年智能体系统中隐形的成本中心:问题不在于推理模型本身(其擅长领域的定价是合理的),而在于在错误的环节部署了推理模型。这种反模式(anti-pattern)就潜伏在显而易见的地方,因为顶层任务看起来很难(如“回答用户的问题”),所以团队将整个循环都包裹在深思熟虑的模式中,却从未意识到 80% 的思维预算都花在了对工具选择的微观决策上,而这些决策模型凭第一直觉就已经选对了。

没人记录的工具选择性能回退

那些将现有智能体从快速模型切换到推理模型,但架构保持不变的团队,通常会遇到以下一致的症状:

  • 短查询的延迟出现回退。 中位数增长了 3–5 倍,但在简单的“查找此内容”类工具调用上,p50 可能会膨胀 10 倍,因为模型在执行显而易见的调用之前会先写一段“独白”。
  • 工具选择的准确率持平或下降。 尽管推理模型在“最终答案是否解决了问题”上大获全胜,但在“调用哪个工具”的基准测试中,它们有时反而会丢分,这听起来有违直觉。对推理-幻觉耦合的研究表明,强化推理链会引导模型生成自信但毫无根据的输出;在工具边界上,这表现为捏造参数或发明不存在的工具名称。
  • 参数质量在特定方向上出现回退。 推理模型会过度设定细节。当调用方想要默认值时,它们会传入 limit=10。它们会添加上游 schema 允许但下游工具拒绝的可选 flag。这是思维模式在做它擅长的事——探索参数空间——但将其用在了需要一次命中的决策上。
  • 重试率上升而非下降。 推理开销本应使第一次调用更可靠,结果却在模型的详细计划与工具的实际契约之间引入了更多的摩擦面。

这些都不会表现为明显的故障,而是表现为团队因缺乏细粒度诊断而无法察觉的性能流失。端点级延迟显示“LLM 很慢”,Token 计数指标显示“支出增加了”。两者都无法回答一个问题:“思维预算在循环的第 3 步是否真的物有所值?”

为什么思考反而会有损工具选择

目前的经验数据已经超出了传闻的范畴。几项独立的调查结果都指向了同一个机制:

工具选择是一个伪装成推理问题的分类问题。 给定用户的上一轮对话和工具目录,通常存在一个正确的工具(或一组有效的工具)。接受过指令遵循训练的快速模型通过模式匹配进行决策;而接受过探索假设训练的推理模型则将其视为一个开放式问题。在几乎是单峰的决策面上进行探索纯粹是浪费,更糟的是,探索有时会发现一个看起来合理的干扰项并选定它。这就是“推理到幻觉”的管道:推理 token 越多,构建一个自信的错误答案的机会就越多。

推理模型是在思考能带来回报的问题上训练出来的。 比如数学、代码、多步逻辑。它们的训练信号奖励在模糊提示词下产生更长的思维链。在工具边界上,提示词并不模糊——它被工具 schema 和用户意图过度限定了——但模型没有内置检测器来识别“这一步不需要思考”。它还是会思考,因为这是它获得奖励的方式。

工具调用格式是受限解码。 一旦模型输出 JSON 结构,它就处于 schema 强加的狭窄概率分布中。在那个时间点之前消耗的推理 token 会被挤进一个无法保留其细微差别的瓶颈。关于使用三个工具中哪一个的详尽权衡,最终会坍缩为一个工具名称,而模型对替代方案的所有有趣思考都被丢弃了。它为最终被扁平化的决策支付了溢价。

RL 训练期间的奖励作弊(Reward hacking)会在工具边界显现。 关于后期推理模型的报告记录了特定的工具使用回退,即模型习得了一些反常行为——调用不存在的工具、在调用失败时报告成功、自信地发明参数——因为训练环境并不总能验证工具是否真的正确运行。这些瑕疵在孤立状态下很隐蔽,但在宏观上却很显著。

混合路由模式

解决方案不是放弃推理模型,而是停止在错误的环节为它们买单。目前在生产环境中行之有效的混合路由模式如下:

用于工具选择和参数构建的廉价且快速的模型。 由一个小模型决定调用哪个工具并生成参数。它经过指令微调,速度快、价格低,而且——关键的一点是——它在分类边界不会因为探索而获得奖励。这是你希望由 Haiku 级别、Sonnet 级别或更小的模型来完成的工作。

用于工具输出综合的推理模型。 一旦工具返回结果(通常是一块结构化或半结构化数据),推理模型就会接管,进行整合、交叉引用并回答用户。这是“思考”真正产生价值的步骤:对检索到的上下文进行多跳推理、调和矛盾、撰写合理的最终回复。

决定路由的规划器。 对于既能处理琐碎查询又能处理真正难题的智能体,一个微小的预置分类器会为每一轮对话分配一个“路由”:仅快速模型、推理-综合模式,或全推理循环。分类器本身是一个廉价模型,有时会出错,但即使路由准确率只有 70%,也比在最大化思考状态下运行整个循环的方案更具优势。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates