工具边界处的推理模型税
· 阅读需 11 分钟
强化思维在处理新颖的推理任务时表现出色。但在工具边界(即你的智能体必须选择调用哪个函数、何时调用以及传递哪些参数的时刻),同样的思维预算往往会适得其反。模型会权衡三个等效的工具,而快速模型原本只需要一个 token 就能消除歧义。它在原本不存在歧义的地方制造出听起来合理的歧义。它消耗了一千个推理 token 来反复质疑那个显而易见的 search 调用,结果最后还是调用了 search。你为一个不需要推理的决策支付了推理税。
这是 2026 年智能体系统中隐形的成本中心:问题不在于推理模型本身(其擅长领域的定价是合理的),而在于在错误的环节部署了推理模型。这种反模式(anti-pattern)就潜伏在显而易见的地方,因为顶层任务看起来很难(如“回答用户的问题”),所以团队将整个循环都包裹在深思熟虑的模式中,却从未意识到 80% 的思维预算都花在了对工具选择的微观决策上,而这些决策模型凭第一直觉就已经选对了。
没人记录的工具选择性能回退
那些将现有智能体从快速模型切换到推理模型,但架构保持不变的团队,通常会遇到以下一致的症状:
- 短查询的延迟出现回退。 中位数增长了 3–5 倍,但在简单的“查找此内容”类工具调用上,p50 可能会膨胀 10 倍,因为模型在执行显而易见的调用之前会先写一段“独白”。
- 工具选择的准确率持平或下降。 尽管推理模型在“最终答案是否解决了问题”上大获全胜,但在“调用哪个工具”的基准测试中,它们有时反而会丢分,这听起来有违直觉。对推理-幻觉耦合的研究表明,强化推理链会引导模型生成自信但毫无根据的输出;在工具边界上,这表现为捏造参数或发明不存在的工具名称。
- 参数质量在特定方向上出现回退。 推理模型会过度设定细节。当调用方想要默认值时,它们会传入
limit=10。它们会添加上游 schema 允许但下游工具拒绝的可选 flag。这是思维模式在做它擅长的事——探索参数空间——但将其用在了需要一次命中的决策上。 - 重试率上升而非下降。 推理开销本应使第一次调用更可靠,结果却在模型的详细计划与工具的实际契约之间引入了更多的摩擦面。
这些都不会表现为明显的故障,而是表现为团队因缺乏细粒度诊断而无法察觉的性能流失。端点级延迟显示“LLM 很慢”,Token 计数指标显示“支出增加了”。两者都无法回答一个问题:“思维预算在循环的第 3 步是否真的物有所值?”
