跳到主要内容

认知工具支架:在不增加成本的情况下获得接近推理模型的性能

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的推理模型账单可能很高,但能力差距可能比你想象的要小。在 AIME 2024 数学基准测试中,一个运行四个结构化认知操作的标准 70B 模型,其准确率从 13% 跃升至 30% —— 以极低的推理成本,几乎赶上了 o1-preview 的 44%。在像 GPT-4.1 这样更强大的基础模型上,同样的技术将准确率从 32% 提升到 53%,这实际上在这些基准测试中超越了 o1-preview。

这种技术被称为认知工具脚手架 (cognitive tool scaffolding),它是过去十年研究如何让语言模型在不改变权重的情况下实现更好推理的最新演变。

什么是认知脚手架

认知脚手架背后的直觉是,预训练已经在大型语言模型中注入了潜在的推理能力。模型已经见过数百万个解题示例、数学证明和问题解决轨迹。它通常缺乏的是在给定提示词下系统性地展现这些潜在知识的结构。

认知工具脚手架通过将 LLM 封装在一个智能体循环 (agentic loop) 中来解决这个问题,模型可以在其中调用模块化的推理操作 —— 不是外部 API,而是由模型自身执行的内部认知操作。无需微调,无需改变权重,只需通过工具调用框架进行结构化提示。

最近的研究汇聚成了四个核心操作:

理解问题 (Understand Question) —— 强制模型在尝试解决问题之前先进行分解。它识别核心概念,提取相关信息,突出适用的定理或约束。这不是摘要,而是结构化的问题分解,它揭示了模型实际被要求处理的任务结构。

召回相关内容 (Recall Related) —— 从模型的训练数据中检索类似的已解决示例。模型从记忆中生成紧密相关问题的分步解决方案,然后将其作为当前问题的脚手架。这本质上是无需外部少样本示例的少样本提示 (few-shot prompting) —— 模型自己寻找类比对象。

检查答案 (Examine Answer) —— 对当前推理轨迹进行自我反思。模型显式地寻找逻辑缺陷、错误假设、计算错误和未满足的约束。与朴素的自我修正不同,这是结构化的:模型被强制列举特定的错误类别,而不仅仅是“检查工作”。

回溯 (Backtrack) —— 当检查步骤发现缺陷时,回溯会识别推理出错的具体步骤,并提出替代方案。它不是从头开始,而是精确定位分歧点并从那里开始探索。

每一个操作都在标准的智能体框架中作为独立的工具调用来实现。LLM 决定何时调用、以何种顺序调用以及调用多少次。框架增加了护栏,但并不规定固定的执行路径。

基准测试数据

基准测试的提升幅度足以引起关注,而且在不同的模型系列中都表现一致。

在 AIME 2024 —— 一个能可靠区分浅层模式匹配与真实多步推理的竞赛级数学基准测试上:

  • Llama3.3-70B:基线 13.1% → 使用脚手架后为 29.8%(提升 16.7 个百分点)
  • Qwen2.5-32B:17.2% → 32.1%(提升 14.9 个百分点)
  • GPT-4.1:32% → 53%(提升 21 个百分点,超越了 o1-preview 的 44.6%)

在更广泛的数学基准测试 MATH500 上:

  • Llama3.3-70B:57.0% → 74.7%(+17.7 个百分点)
  • Qwen2.5-32B:74.1% → 81.8%

在 SmolaAgents (智能体任务完成) 上:

  • Llama3.3-70B:52.8% → 80.0%(+27.2 个百分点)
  • Qwen2.5-32B:79.6% → 88.0%

AMC 的结果显示了类似的模式:Llama3.3-70B 从 33% 跃升至 51%,Qwen2.5-32B 从 52.6% 跃升至 62.7%。

这些数字之所以重要,不仅在于绝对数值,还在于它们揭示了标准模型与推理模型之间的差距。如果带有认知脚手架的 GPT-4.1 在 AIME 2024 上彻底击败了 o1-preview,而 Llama3.3-70B 也几乎赶上了它,那么实际的问题就变成了:在什么情况下购买推理模型才有意义?

为什么这有效

理解这里的认知科学框架非常重要,因为它改变了你对部署的思考方式。

对 LLM 推理的研究已经确定了人类和模型成功推理所使用的 28 个认知元素 —— 比如顺序组织、分解、自我意识和评估。关键发现是,通过强化学习 (RL) 进行推理训练的模型 (o1/o3/R1) 已经学会了在内部、在它们的私有思维链 (CoT) 过程中应用这些元素。但底层的能力通常已经存在于基础模型中;所增加的是系统地部署这些能力的元认知结构。

认知工具脚手架将这种元认知结构外部化。你并没有赋予模型新的能力 —— 你只是赋予了它一个组织框架,让它一次一个明确步骤地部署现有能力。

这产生了一个反直觉的暗示:CoT 提示词(仅仅要求模型“一步步思考”)在简单问题上能为你带来一些好处,但在复杂的多步推理中会失效,因为模型会默认进行浅层的正向链接。认知工具框架与 CoT 的不同之处在于,它将元认知操作(召回、检查、回溯)变成了模型显式调用的“一等公民”操作,而不是它可能表现也可能不表现的隐式行为。

对 1,598 篇 LLM 推理论文的更广泛分类发现,研究集中在易于衡量的元素上,如顺序组织(55% 的论文)和分解(60%),而忽视了元认知控制,如自我意识(16%)和评估(8%)—— 而这些恰恰是与复杂任务表现最相关的元素。认知工具框架直接针对这一差距。

延迟与成本的权衡

在决定采用哪种方法之前,值得仔细核算一下生产环境的成本。

推理模型的成本不容小觑。在 o1 上运行基准测试,每次评估运行的成本大约为 2,767 美元,因为模型生成了 4,400 万个内部推理 token。对于规模化生产而言,扩展思维链带来的 token 倍增意味着一个每月花费 100 美元的 GPT-4o 应用,在 o3 上运行可能需要 200 到 500 美元。

延迟是一个更硬的约束。GPT-4o 的响应时间为 2-4 秒。o1-preview 平均需要 22 秒 —— 中位数慢了 30 倍。这对于异步工作流是可以接受的,但对于对话式 UI 来说则不可接受。

在标准模型上构建认知支架具有不同的成本剖析:

  • 每次认知工具调用都是一次 LLM 调用,通常带有针对性的提示词
  • 一个完整的“理解 → 召回 → 检查 → 回溯”周期可能总共需要 4-8 次调用
  • 但所有调用都指向更便宜的基础模型,而且某些工具可能根本不会被调用
  • 你可以完全控制何时应用哪些工具

实际的上限取决于查询的复杂程度。对于简单的查询,你不应用任何支架,即可获得近乎瞬时的响应。对于真正困难的查询,你应用所有四种工具,虽然接受比单次调用高 3-5 倍的延迟,但仍比推理模型快得多,且价格仅为基础模型水平。

此外,还具有透明度优势。每次认知工具调用都会产生可检查的输出。你可以记录模型召回了什么、检查步骤发现了哪些错误、在哪里决定回溯。而推理模型的内部思维链是一个不透明的独白,可能无法反映真实的计算过程。支架化方法则暴露了其工作过程。

何时使用每种方法

决策并非非黑即白,优秀的生产系统会进行动态路由。

在以下情况下使用推理模型:

  • 在你的业务量级下,准确率值得付出这些成本。如果你每天运行 100 个复杂的查询,且每个正确答案能节省 50 美元,那么使用 o3 的账通常能算得过来。
  • 你需要模型自我调节推理深度。推理模型决定思考多少;支架化模型则需要你来决定。
  • 你的任务足够模糊,以至于你无法列举出哪些认知操作会有所帮助。推理模型在训练期间就能学会这些。而支架要求你知道哪些元认知操作是相关的。
  • 延迟不是问题。例如异步流水线、批处理、低频分析任务。

在以下情况下使用认知支架:

  • 你正在使用没有推理变体的开源模型。Llama、Qwen、Mistral 以及大多数部署在私有基础设施上的模型都属于此类。支架适用于任何能够处理工具调用的模型。
  • 你需要可解释性。监管、审计、调试 —— 任何“展示你的工作过程”意味着展示每个离散步骤而非一段文本独白的场景。
  • 你的工作负载对延迟敏感。对话式应用无法承受 22 秒的推理延迟。支架化的标准模型可以在 5-8 秒内完成同样的任务。
  • 你想要选择性应用。查询复杂度分类器可以将简单查询直接路由到基础模型(零支架开销),将中等查询路由到“理解 + 检查”,将难题路由到全套工具。推理模型则是全量开启或关闭。
  • 你是在任务层级而非查询层级进行优化。如果你的智能体循环中有不同的任务类型 —— 有些需要繁重的多步推理,有些则很简单 —— 认知支架让你能够根据任务匹配推理开销。购买推理模型会统一升级所有内容,包括那些不需要升级的任务。

生产团队一致报告的一个重要注意事项是:few-shot 提示词在标准模型上效果很好,但在 o1 和 o3 等推理模型上会主动降低性能。推理模型更喜欢高层级的目标描述,抵制详细的过程指令。这很重要,因为这意味着你现有的提示词基础设施 —— 所有你精心设计的 few-shot 案例 —— 无法无缝迁移到推理模型。而使用认知支架,你保留了相同的基础模型,现有的 few-shot 提示词依然有效。

计算投资的层级

将这些技术视为一个性能与成本的阶梯会有所帮助:

标准模型,无支架 —— 基准。快速、便宜,适用于大多数生产环境查询。

CoT 提示词 —— 免费升级。要求模型一步步思考。在处理中等复杂任务时有显著改进。除了输出 token 之外没有额外的延迟开销。在模型需要元认知结构的复杂多步问题上效果会下降。

认知工具支架 —— 增加结构化的元认知操作。比单次调用贵 2-5 倍且更慢,但在难题上能达到接近推理模型的准确率。完全可解释。适用于任何支持工具调用的模型。

推理模型 —— 在最难的问题上拥有最高的能力天花板。比基础模型贵 5-10 倍,慢 10-30 倍。最适合异步、低容量、准确率至上且无法枚举认知操作的流程。

大多数生产系统处于前两层,偶尔需要第三层。很少有系统真正需要第四层 —— 但人们经常因为它是解决“模型性能不够好”最显而易见的方案而选择它。

实际意义

认知工具支架(Cognitive tool scaffolding)不会取代推理模型。一旦基准测试追赶上来,具有扩展思维(extended thinking)功能的 o3 在最难的推理问题上依然会胜过它。但对于大量生产环境中的任务——那些“足够难到需要结构化推理,但又没难到值得付出 22 秒延迟和 5 倍成本”的任务——结构化认知支架是比条件反射式地升级到推理模型更经济的路径。

更值得关注的启示是,这揭示了模型潜能(latent model capability)的所在。基础模型的能力比它们默认输出所展现出的要强大得多。Llama3.3-70B 的原始输出与带支架输出之间的差距——在 AIME 2024 测试中为 13% 对 30%——并非知识层面的差距。这是一种元认知结构(metacognitive structure)的差距。而且这种差距无需任何训练步骤即可弥合。

对于已经在运行带有工具调用(tool-calling)基础设施的 Agent 循环(agentic loops)的团队来说,在假设问题必须使用更昂贵的模型之前,添加认知工具操作是一种具体且低干扰的干预手段,值得你尝试。

References:Let's stay in touch and Follow me for more thoughts and updates