2 篇博文含有标签「few-shot」

生产环境中的零样本与少样本：示例何时有用，何时有害

2026年4月17日 · 阅读需 11 分钟

Software Engineer

关于少样本提示，最常见的建议是：加入示例，质量就会提升。这个建议经常是错的，错到你不能不加以实测就随意信任它。在实践中，示例数量与模型性能之间的关系是非单调的——在某个点达到峰值之后就会下降，有时候下降幅度相当大。

2025 年的一项实证研究追踪了 12 个 LLM 在多项任务中的表现，发现 Gemma 7B 在漏洞识别任务中，随着示例数量超过最优值，准确率从 77.9% 跌至 39.9%。LLaMA-2 70B 在同类任务中从 68.6% 跌至 21.0%。在代码翻译基准测试中，功能正确性通常在 5 到 25 个示例之间达到峰值，之后便开始下降。这并非个别模型的特例——研究人员将其命名为"少样本崩溃"（few-shot collapse），这一现象普遍存在。

动态少样本检索：为什么你的静态示例正在损耗准确率

2026年4月12日 · 阅读需 12 分钟

Tian Pan

Software Engineer

当一个团队在系统提示开头硬编码三个示例输入输出对时，这看起来是合理的工程决策。这些示例经过人工验证，格式统一，模型行为也可预期地有所改善。六个月后，同样这三个示例还在那里——能很好地覆盖 30% 的输入查询，其余的则是敷衍了事，而且没有人去统计到底哪些是哪些。

静态少样本提示是生产 LLM 系统中最被忽视的性能黑洞。另一种方案——根据查询的语义相似度按需选择示例——在各类任务中的质量表现持续优于固定示例，差距往往达到两位数百分比。但这个迁移过程既不免费，也不无风险，而且动态方案的失败模式比静态方案更难察觉。

本文将介绍研究数据的实际结论、生产中检索栈的工作方式、大多数从业者忽视的排序和投毒风险，以及静态示例应该获胜的具体场景。

关于 Tian Pan