跳到主要内容

2 篇博文 含有标签「in-context-learning」

查看所有标签

零样本之墙:为什么上下文示例在生产规模下失效

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队发现“零样本墙”(zero-shot wall)的过程都如出一辙:一个新的边界案例导致模型出错,他们向提示词(prompt)中添加一个示例,问题解决了。三个月后,他们已经累积了 40 个示例,消耗了 6,000 个 token 的上下文,性能指标数周没有变化,而那个清楚每个示例来源的提示词工程师刚刚离职了。

少样本提示(Few-shot prompting)非常具有诱惑力,因为它见效快。你观察到一个失败案例,添加一个演示示例,失败就消失了。反馈循环很紧凑,而且胜利感觉是无成本的。你没有注意到的是,随后的每一个示例带来的收益都在递减——到某个阶段,你为了那些几乎可以忽略不计的改进,付出了大量的 token、延迟和认知开销。

这就是“零样本墙”:它不是性能断崖式下跌的硬限制,而是一个收益锐减的区域。在这个区域,上下文学习(in-context learning)对于你的任务已经达到了天花板,剩下的唯一手段就是微调(fine-tuning)。

少样本饱和曲线:为什么添加更多示例最终会适得其反

· 阅读需 10 分钟
Tian Pan
Software Engineer

一个团队在路线优化任务上测试 Gemini 3 Flash,零样本准确率达 93%。他们开始添加示例,性能一路攀升——但在添加到八个示例时,准确率骤降至 30%。这不是噪声,而是少样本饱和曲线的猛烈反噬。这是大多数工程师只有在部署了一个四个示例时看起来正常、十二个示例时却出现问题的提示之后才会发现的故障模式。

"更多示例严格意味着更好"的直觉是错的。跨 12 个 LLM 和数十种任务类型的数据显示了三种截然不同的失败模式:稳定平台期(收益趋于平缓)、峰值回归(收益先升后崩)和选择诱导崩溃(更换示例检索策略后收益蒸发)。理解自己处于哪种模式,会改变你构建提示的方式、何时放弃少样本方案,以及是否应该转向微调。