1 篇博文含有标签「zero-shot」

生产环境中的零样本与少样本：示例何时有用，何时有害

2026年4月17日 · 阅读需 11 分钟

Software Engineer

关于少样本提示，最常见的建议是：加入示例，质量就会提升。这个建议经常是错的，错到你不能不加以实测就随意信任它。在实践中，示例数量与模型性能之间的关系是非单调的——在某个点达到峰值之后就会下降，有时候下降幅度相当大。

2025 年的一项实证研究追踪了 12 个 LLM 在多项任务中的表现，发现 Gemma 7B 在漏洞识别任务中，随着示例数量超过最优值，准确率从 77.9% 跌至 39.9%。LLaMA-2 70B 在同类任务中从 68.6% 跌至 21.0%。在代码翻译基准测试中，功能正确性通常在 5 到 25 个示例之间达到峰值，之后便开始下降。这并非个别模型的特例——研究人员将其命名为"少样本崩溃"（few-shot collapse），这一现象普遍存在。

关于 Tian Pan