零样本、少样本还是思维链:生产环境下的决策框架
询问大多数工程师为什么在生产环境中使用 Few-shot 提示词,你会听到类似这样的回答:“它看起来效果更好。” 询问他们为什么要加入思维链(Chain-of-thought),答案通常是:“我读到过它有助于推理。” 这些回答并不完全错误。但它们只是披着工程外壳的惯例。关于每种提示词技术何时真正胜出的证据已经足够具体,你可以系统性地做出决定——而正确的选择可以将 Token 成本降低 60–80%,或者防止你甚至没察觉到的性能退化。
以下是研究结果,以及如何将其应用到你的技术栈中。
传统观念已过时
传统的层级结构是:简单任务用 Zero-shot,需要格式对齐时用 Few-shot,复杂推理用思维链。这在 2022 年是合理的。但在 2025 年,这正变得越来越错误。
一项 2025 年针对 Qwen2.5 模型的研究发现,在算术、代数和逻辑谜题上,Zero-shot 思 维链的表现等同于甚至超过了 Few-shot 思维链——而这正是 Few-shot 原本应该大放异彩的领域。自注意力分析解释了原因:现代经过指令微调的模型将注意力集中在指令和测试问题本身,而在上下文示例(In-context exemplars)上的权重极小。你精心挑选的示例并没有起到你预想的作用。
这这不是特例。它是前沿模型训练的系统性效应。其含义非常直接:如果你在 GPT-4 级别的模型上使用 Few-shot 主要是为了提高推理质量,那么你很可能在为那些毫无帮助的 Token 付费。
每种技术何时真正胜出
决策由四个因素驱动:任务复杂度、输出结构要求、模型规模和 Token 预算。请按顺序评估这些因素。
任务复杂度是第一道关卡。对于分类、提取和结构化信息检索——这些答案空间受限且推理链条较短的任务——在性能强大的模型上,Zero-shot 的表现与更复杂的方法持平或接近。思维链(CoT)的可衡量优势仅限于多步数学推理、符号操作和逻辑演绎。研究结果在这一点上是一致的:在 NLP 分类基准测试中,CoT 相对于 Zero-shot 的收益在统计学上通常是无法区分的。
输出结构是 Few-shot 仍占有一席之地的地方。即使在前沿模型上,示例对于教授输出 格式 依然有用:例如特定的 JSON 模式、特定领域的符号或受限的回复模板。近期研究的关键洞察是,Few-shot 的角色已经发生了转变。它不再是为了提升推理能力,而是为了格式对齐。如果你的下游解析器依赖于精确的结构合规性,那么几个精心 挑选的示例是值得花费 Token 的。如果你没有严格的格式要求,你可能并不需要它们。
模型规模的重要性超过了大多数团队的预估。思维链仅在参数量超过约 100B 的模型上才显示出可衡量的准确率提升。在这个阈值以下——涵盖了 Llama 3.1 8B、Mistral 7B 以及大多数经过微调的小型模型——CoT 不会产生任何改进,甚至会主动降低性能。如果你的技术栈出于成本原因使用较小的模型,那么 Few-shot(用于格式)加上系统提示词中明确的分步指令,其表现将优于标记化的思维链推理。
Token 预算是终结许多理论争论的生产约束。CoT 会使 Token 成本膨胀 2–5 倍,并增加数秒的延迟。盈亏平衡的问题在于:准确率的提升是否值得成本和延迟的成倍增加?对于基准准确率已经超过 85–90% 的任务,答案几乎总是否定的。对于基准准确率为 60% 的高风险分类任务,CoT 带来的 10–15 个百分点的提升则可能值得一试。
决策矩阵
将证据总结为可操作的建议:
-
Zero-shot:当模型规模较大(>70B 参数或 API 级别模型)、任务是分类或提取、输出结构灵活,且 Zero-shot 的基准准确率符合你的 SLA 时使用。这是前沿模型的正确默认选择。
-
Few-shot:当你拥有 Zero-shot 无法可靠生成的严格输出格式,或者当你使用较小模型(<70B 参数)需要通过示例弥补较弱的指令遵循能力时使用。将示例数量保持在 3–8 个;超过这个数量会引发 Few-shot 困境。
-
Chain-of-thought:当任务涉及 多步数学或逻辑推理、你使用的是 100B+ 参数模型、准确率比延迟更重要,且基准错误率足够高以至于改进值得 Token 成本时使用。对于 Zero-shot CoT,添加“逐步思考”(think step by step);对于 Few-shot CoT,提供详细的解题示例。
一个贯穿三者的准则是:标签可用性。如果你拥有展示推理过程的高质量标注示例,那么 Few-shot CoT 值得测试。如果你的示例质量参差不齐,或者对边缘情况的代表性较差,你很可能会引入噪音而非信号——此时 Zero-shot 更安全。
真正重要的 Token 成本计算
一个生产团队经常忽略的具体计算:如果你的任务在零样本(zero-shot)下耗费 300 个 token,而在思维链(CoT)下耗费 900 个 token,那么你至少需要将错误率降低 3 倍,才能在成本上达到平衡。如果你的 SLA 延迟预算在 1 秒以内,无论准确度如何,CoT 通常都是不可用的。
效率前沿也在发生移动。Chain-of-Draft(草稿链)生成的中间推理注释极少,而不是完整的逐步分解,在实现与标准 CoT 相当的准确度时,节省了 75–80% 的 token。在某些基准测试中,它的表现优于 CoT,而消耗的上下文仅为一小部分。这种方法——简短的推理支架而非冗长的思维链——在任何成本敏感的部署中,在投入标准 CoT 之前都值得进行基准测试。
具有 Token 预算意识的推理方法(告知模型其推理预算有限)可以在推理任务中减少 60–70% 的输出 token,且准确度损失微乎其微。如果你使用的是扩展思维或草稿本(scratchpad)模式 ,通过指令限制推理长度通常比更改结构化提示词更简单且有效。
少样本困境:更多示例可能会适得其反
大多数团队尚未吸收的一个反直觉发现:在能力较强的 LLM 上,过多的领域特定示例可能会降低性能。其机制涉及多数标签偏差(模型从你的示例分布中学习统计模式,而不是决策边界)和近因偏差(最后几个示例对输出的影响不成比例)。
GPT-3.5 比 GPT-4 更容易受到这种影响。如果你正在对少样本提示词变体进行 A/B 测试,请将示例数量视为一个超参数,并测试 0、1、3、5 和 8 个示例。性能曲线很少是单调的——它会在某处达到峰值,然后下降。大多数团队在达到“比基准更多的示例”时就停止了,而没有找到峰值。
示例选择的质量与直觉所暗示的也有所不同。对于格式对齐,示例应与你的生产输入分布紧密匹配。对于推理演示,多样性比与测试输入的相似性更重要。从某一类输入集群中选择三个最具代表性的示例,可能会损害泛化能力。
如何针对你的任务进行实际基准测试
不要仅根据研究结果来选择策略——在特定任务上的实证表现才是关键。方法论:
-
构建一个包含 100–200 个代表性示例的黄金数据集,这些示例应源自你真实的生产输入分布。包含困难案例,而不仅仅是简单案例。
-
在相同模型和采样参数下,在同一数据集上测试所有三种策略(零样本、3 个示例的少样本、8 个示例的少样本、零样本 CoT、少样本 CoT)。
-
共同衡量准确度和成本。使用综合指标:每 1,000 个 token 的准确度。这使权衡变得显而易见。
-
如果你的架构允许灵活性,请跨多个模型进行测试。一个较小、较便宜的模型配以少样本,在你的任务上可能优于一个配以 CoT 的较大模型——且成本低 5 倍。
-
每季度重新运行一次。模型更新是在静默中发生的。六个月前最优的提示策略,现在可能已被底层模型指令微调的变化所超越。生产 AI 退化研究表明,性能漂移是系统性的,而非随机的——而提示词策略的交互是监测较少的诱因之一。
“推理时计算”带来了哪些改变
2024 年底研究中最显著的范式转移:在保持总计算量不变的情况下,在推理时分配更多计算(扩展推理、多步自我批判)可以让较小的模型在推理任务中超越大得多的模型。这改变了思维链的成本估算。
实际影响是:在需要强大推理准确度的任务中,带有扩展 CoT 的中层模型可能比带有零样本的前沿模型更具成本效益。正确的比较不是“ 零样本 GPT-4 对阵 CoT GPT-4”,而是“在相同单次任务成本下,零样本 GPT-4 对阵 CoT GPT-3.5-turbo”。在结构化推理任务中,这种比较通常有利于后者。
生产中的常见陷阱
一次性选定策略后不再复盘。 模型版本会更迭。随着产品演进,你的输入分布会发生偏移。发布时有效的方法在六个月后可能会退化。将提示词策略纳入你的季度评估周期,而不仅仅是初始部署流程。
将更长的提示词作为默认修复方案。 分析一致发现,在大多数任务中,字数少于 50 个单词的提示词优于较长的提示词。在添加上下文时,要有所筛选——在记录在案的案例中,过多的上下文会将错误率提高 30% 以上。通过添加更多细节来修复失败提示词的本能往往是错误的。
在没有延迟预算的情况下使用 CoT。 在许多配置中,思维链会使响应时间增加数秒。如果你的系统有亚秒级的 SLA,无论准确度提升多少,扩展推理都是不可行的。在进行基准测试之前,先确定延迟约束。
将所有模型视为等同。 少样本的有效性因模型架构和训练而异。对一个模型系列最优的示例数量通常会降低另一个模型的性能。切勿在未重新测试的情况下,将一个模型上验证过的提示词策略应用于另一个不同的模型。
前瞻展望
LLM 推理成本在三年内下降了约 1000 倍 。思维链(CoT)的经济性在不断提高,但核心决策标准——在你任务基准性能下准确率的提升与 Token 成本的权衡——仍然有效。改变的是盈亏平衡点:随着成本下降,即使准确率增量较小,使用 CoT 也变得具有合理性。
更重要的趋势是,前沿模型正将推理能力内化到零样本指令遵循中。2025 年的研究趋势很明确:随着每一代指令微调模型变得更强,少样本示例和显式推理链的边际价值正在下降。那些能够对其提示策略有效性保持准确认知的团队,是那些进行系统性评估的团队,而不是那些依赖于上一代模型处于领先地位时的“经验之谈”的团队。
像选择算法一样选择你的提示策略:定义约束条件,根据这些条件进行衡量,并在约束条件发生变化时重新评估。
- https://arxiv.org/html/2506.14641v1
- https://arxiv.org/html/2503.01141v1
- https://www.akshaymanglik.com/assets/publications/2024_inf_opt_scaling/paper.pdf
- https://arxiv.org/html/2509.13196v1
- https://aclanthology.org/2025.findings-acl.1274.pdf
- https://www.braintrust.dev/articles/ab-testing-llm-prompts
- https://arxiv.org/html/2406.12644v2
- https://a16z.com/llmflation-llm-inference-cost/
