零样本、少样本还是思维链：生产环境下的决策框架

2026年4月20日 · 阅读需 11 分钟

Software Engineer

询问大多数工程师为什么在生产环境中使用 Few-shot 提示词，你会听到类似这样的回答：“它看起来效果更好。” 询问他们为什么要加入思维链（Chain-of-thought），答案通常是：“我读到过它有助于推理。” 这些回答并不完全错误。但它们只是披着工程外壳的惯例。关于每种提示词技术何时真正胜出的证据已经足够具体，你可以系统性地做出决定——而正确的选择可以将 Token 成本降低 60–80%，或者防止你甚至没察觉到的性能退化。

以下是研究结果，以及如何将其应用到你的技术栈中。

传统观念已过时

传统的层级结构是：简单任务用 Zero-shot，需要格式对齐时用 Few-shot，复杂推理用思维链。这在 2022 年是合理的。但在 2025 年，这正变得越来越错误。

一项 2025 年针对 Qwen2.5 模型的研究发现，在算术、代数和逻辑谜题上，Zero-shot 思维链的表现等同于甚至超过了 Few-shot 思维链——而这正是 Few-shot 原本应该大放异彩的领域。自注意力分析解释了原因：现代经过指令微调的模型将注意力集中在指令和测试问题本身，而在上下文示例（In-context exemplars）上的权重极小。你精心挑选的示例并没有起到你预想的作用。

这这不是特例。它是前沿模型训练的系统性效应。其含义非常直接：如果你在 GPT-4 级别的模型上使用 Few-shot 主要是为了提高推理质量，那么你很可能在为那些毫无帮助的 Token 付费。

每种技术何时真正胜出

决策由四个因素驱动：任务复杂度、输出结构要求、模型规模和 Token 预算。请按顺序评估这些因素。

任务复杂度是第一道关卡。对于分类、提取和结构化信息检索——这些答案空间受限且推理链条较短的任务——在性能强大的模型上，Zero-shot 的表现与更复杂的方法持平或接近。思维链（CoT）的可衡量优势仅限于多步数学推理、符号操作和逻辑演绎。研究结果在这一点上是一致的：在 NLP 分类基准测试中，CoT 相对于 Zero-shot 的收益在统计学上通常是无法区分的。

输出结构是 Few-shot 仍占有一席之地的地方。即使在前沿模型上，示例对于教授输出格式依然有用：例如特定的 JSON 模式、特定领域的符号或受限的回复模板。近期研究的关键洞察是，Few-shot 的角色已经发生了转变。它不再是为了提升推理能力，而是为了格式对齐。如果你的下游解析器依赖于精确的结构合规性，那么几个精心挑选的示例是值得花费 Token 的。如果你没有严格的格式要求，你可能并不需要它们。

模型规模的重要性超过了大多数团队的预估。思维链仅在参数量超过约 100B 的模型上才显示出可衡量的准确率提升。在这个阈值以下——涵盖了 Llama 3.1 8B、Mistral 7B 以及大多数经过微调的小型模型——CoT 不会产生任何改进，甚至会主动降低性能。如果你的技术栈出于成本原因使用较小的模型，那么 Few-shot（用于格式）加上系统提示词中明确的分步指令，其表现将优于标记化的思维链推理。

Token 预算是终结许多理论争论的生产约束。CoT 会使 Token 成本膨胀 2–5 倍，并增加数秒的延迟。盈亏平衡的问题在于：准确率的提升是否值得成本和延迟的成倍增加？对于基准准确率已经超过 85–90% 的任务，答案几乎总是否定的。对于基准准确率为 60% 的高风险分类任务，CoT 带来的 10–15 个百分点的提升则可能值得一试。

决策矩阵

将证据总结为可操作的建议：

Zero-shot：当模型规模较大（>70B 参数或 API 级别模型）、任务是分类或提取、输出结构灵活，且 Zero-shot 的基准准确率符合你的 SLA 时使用。这是前沿模型的正确默认选择。
Few-shot：当你拥有 Zero-shot 无法可靠生成的严格输出格式，或者当你使用较小模型（<70B 参数）需要通过示例弥补较弱的指令遵循能力时使用。将示例数量保持在 3–8 个；超过这个数量会引发 Few-shot 困境。
Chain-of-thought：当任务涉及多步数学或逻辑推理、你使用的是 100B+ 参数模型、准确率比延迟更重要，且基准错误率足够高以至于改进值得 Token 成本时使用。对于 Zero-shot CoT，添加“逐步思考”（think step by step）；对于 Few-shot CoT，提供详细的解题示例。

一个贯穿三者的准则是：标签可用性。如果你拥有展示推理过程的高质量标注示例，那么 Few-shot CoT 值得测试。如果你的示例质量参差不齐，或者对边缘情况的代表性较差，你很可能会引入噪音而非信号——此时 Zero-shot 更安全。

真正重要的 Token 成本计算

一个生产团队经常忽略的具体计算：如果你的任务在零样本（zero-shot）下耗费 300 个 token，而在思维链（CoT）下耗费 900 个 token，那么你至少需要将错误率降低 3 倍，才能在成本上达到平衡。如果你的 SLA 延迟预算在 1 秒以内，无论准确度如何，CoT 通常都是不可用的。

效率前沿也在发生移动。Chain-of-Draft（草稿链）生成的中间推理注释极少，而不是完整的逐步分解，在实现与标准 CoT 相当的准确度时，节省了 75–80% 的 token。在某些基准测试中，它的表现优于 CoT，而消耗的上下文仅为一小部分。这种方法——简短的推理支架而非冗长的思维链——在任何成本敏感的部署中，在投入标准 CoT 之前都值得进行基准测试。

具有 Token 预算意识的推理方法（告知模型其推理预算有限）可以在推理任务中减少 60–70% 的输出 token，且准确度损失微乎其微。如果你使用的是扩展思维或草稿本（scratchpad）模式，通过指令限制推理长度通常比更改结构化提示词更简单且有效。

少样本困境：更多示例可能会适得其反

大多数团队尚未吸收的一个反直觉发现：在能力较强的 LLM 上，过多的领域特定示例可能会降低性能。其机制涉及多数标签偏差（模型从你的示例分布中学习统计模式，而不是决策边界）和近因偏差（最后几个示例对输出的影响不成比例）。

GPT-3.5 比 GPT-4 更容易受到这种影响。如果你正在对少样本提示词变体进行 A/B 测试，请将示例数量视为一个超参数，并测试 0、1、3、5 和 8 个示例。性能曲线很少是单调的——它会在某处达到峰值，然后下降。大多数团队在达到“比基准更多的示例”时就停止了，而没有找到峰值。

示例选择的质量与直觉所暗示的也有所不同。对于格式对齐，示例应与你的生产输入分布紧密匹配。对于推理演示，多样性比与测试输入的相似性更重要。从某一类输入集群中选择三个最具代表性的示例，可能会损害泛化能力。

如何针对你的任务进行实际基准测试

不要仅根据研究结果来选择策略——在特定任务上的实证表现才是关键。方法论：

构建一个包含 100–200 个代表性示例的黄金数据集，这些示例应源自你真实的生产输入分布。包含困难案例，而不仅仅是简单案例。
在相同模型和采样参数下，在同一数据集上测试所有三种策略（零样本、3 个示例的少样本、8 个示例的少样本、零样本 CoT、少样本 CoT）。
共同衡量准确度和成本。使用综合指标：每 1,000 个 token 的准确度。这使权衡变得显而易见。
如果你的架构允许灵活性，请跨多个模型进行测试。一个较小、较便宜的模型配以少样本，在你的任务上可能优于一个配以 CoT 的较大模型——且成本低 5 倍。
每季度重新运行一次。模型更新是在静默中发生的。六个月前最优的提示策略，现在可能已被底层模型指令微调的变化所超越。生产 AI 退化研究表明，性能漂移是系统性的，而非随机的——而提示词策略的交互是监测较少的诱因之一。

“推理时计算”带来了哪些改变

2024 年底研究中最显著的范式转移：在保持总计算量不变的情况下，在推理时分配更多计算（扩展推理、多步自我批判）可以让较小的模型在推理任务中超越大得多的模型。这改变了思维链的成本估算。

实际影响是：在需要强大推理准确度的任务中，带有扩展 CoT 的中层模型可能比带有零样本的前沿模型更具成本效益。正确的比较不是“零样本 GPT-4 对阵 CoT GPT-4”，而是“在相同单次任务成本下，零样本 GPT-4 对阵 CoT GPT-3.5-turbo”。在结构化推理任务中，这种比较通常有利于后者。

生产中的常见陷阱

一次性选定策略后不再复盘。 模型版本会更迭。随着产品演进，你的输入分布会发生偏移。发布时有效的方法在六个月后可能会退化。将提示词策略纳入你的季度评估周期，而不仅仅是初始部署流程。

将更长的提示词作为默认修复方案。 分析一致发现，在大多数任务中，字数少于 50 个单词的提示词优于较长的提示词。在添加上下文时，要有所筛选——在记录在案的案例中，过多的上下文会将错误率提高 30% 以上。通过添加更多细节来修复失败提示词的本能往往是错误的。

在没有延迟预算的情况下使用 CoT。 在许多配置中，思维链会使响应时间增加数秒。如果你的系统有亚秒级的 SLA，无论准确度提升多少，扩展推理都是不可行的。在进行基准测试之前，先确定延迟约束。

将所有模型视为等同。 少样本的有效性因模型架构和训练而异。对一个模型系列最优的示例数量通常会降低另一个模型的性能。切勿在未重新测试的情况下，将一个模型上验证过的提示词策略应用于另一个不同的模型。

前瞻展望

LLM 推理成本在三年内下降了约 1000 倍。思维链（CoT）的经济性在不断提高，但核心决策标准——在你任务基准性能下准确率的提升与 Token 成本的权衡——仍然有效。改变的是盈亏平衡点：随着成本下降，即使准确率增量较小，使用 CoT 也变得具有合理性。

更重要的趋势是，前沿模型正将推理能力内化到零样本指令遵循中。2025 年的研究趋势很明确：随着每一代指令微调模型变得更强，少样本示例和显式推理链的边际价值正在下降。那些能够对其提示策略有效性保持准确认知的团队，是那些进行系统性评估的团队，而不是那些依赖于上一代模型处于领先地位时的“经验之谈”的团队。

像选择算法一样选择你的提示策略：定义约束条件，根据这些条件进行衡量，并在约束条件发生变化时重新评估。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

零样本、少样本还是思维链：生产环境下的决策框架

传统观念已过时

每种技术何时真正胜出

决策矩阵

真正重要的 Token 成本计算

少样本困境：更多示例可能会适得其反

如何针对你的任务进行实际基准测试

“推理时计算”带来了哪些改变

生产中的常见陷阱

前瞻展望

Recommended Reading

关于 Tian Pan

传统观念已过时​

每种技术何时真正胜出​

决策矩阵​

真正重要的 Token 成本计算​

少样本困境：更多示例可能会适得其反​

如何针对你的任务进行实际基准测试​

“推理时计算”带来了哪些改变​

生产中的常见陷阱​

前瞻展望​

Recommended Reading

关于 Tian Pan

传统观念已过时

每种技术何时真正胜出

决策矩阵

真正重要的 Token 成本计算

少样本困境：更多示例可能会适得其反

如何针对你的任务进行实际基准测试

“推理时计算”带来了哪些改变

生产中的常见陷阱

前瞻展望