跳到主要内容

提示词组合:管理一组提示词,而非单一的最佳提示词

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数生产环境中的 AI 团队谈论提示词(prompt)的方式就像初级交易员谈论股票一样:总觉得存在一个“最好的”,而工作就是把它找出来。于是他们不断迭代——一个 Slack 线程,几行评估数据,产生一个新的赢家,推送到主分支,如此循环。其结果是一个承载了产品全部意图解析覆盖面的单一制品(artifact),针对一个固化的评估集进行了优化,而它距离 P1 级事故往往只差一次令人遗憾的修改。

错误在于“单一”这个词。提示词不是一种证券,而是一种配置(allocation)。同一个用户意图可以由几个变体很好地服务,每个变体都有自己的置信区间、各细分领域的性能以及对模型和语料库偏移的敏感度。正确的心理模型不是“找到最好的提示词”,而是“管理一篮子提示词,其构成本身就是产品”。量化金融在五十年前就弄明白了这一点,而其运营机制几乎可以直接无缝迁移。

这种思维框架的转变不仅仅是表面功夫。它改变了你构建的内容(一个追踪权重而不仅仅是版本的注册表)、你发布的方式(将再平衡作为一种计划内的纪律,而非恐慌性的事故响应)以及你的人员配置(有人负责投资组合风险,而不仅仅是提示词质量)。下面是为什么要将提示词视为组合的理由、必须落地的运营层,以及“单一思维框架”不断产生的失败模式。

为什么“单一思维框架”总是失败

“寻找最佳提示词”的工作流有一个特征:运行该流程的每个团队最终都会在 prompts_archive/ 目录下堆满一堆已弃用的提示词,而且说不清楚当前的赢家为什么会胜出。评估集显示它的整体准确率高出几个百分点,但没人能告诉你哪些用户细分领域为这些点数付出了代价。

这并非假设。2025 年的行业报告一致指出,提示词修改是生产环境事故的主要来源——一项分析指出,在他们调查的团队中,提示词更新是大多数 LLM 生产事故的诱因。其模式极其一致:提示词的更改提高了离线评估指标,全量发布到 100% 的流量,然后悄无声息地降低了评估集代表性不足的某个细分领域的性能。等到支持工单堆积如山时,之前的提示词已经落后了两个提交记录,回滚意味着失去新提示词在其他地方带来的正向收益。

组合思维框架指出了失败的原因:你试图在意图解析上持有单一的集中仓位。多元化的组合可以在单个变体出问题时存活下来。它可以在破坏某个变体假设的模型升级中存活。它可以在语料库偏移将某个细分领域推离赢家提示词所调优的分布时存活。集中风险(Concentration risk)是每个以 100% 权重发布的提示词的默认状态。

组合心理模型

在金融投资组合中,你不会问“什么是最好的股票”。你会问:我的敞口(exposure)是多少,我的相关性结构是什么,我的再平衡频率是多少,以及我的风险预算是多少。将这些问题转化为提示词:

  • 敞口即配置权重。占据 70% 流量的提示词就是 70% 的仓位。决定不在于哪个提示词获胜,而在于下周开市时什么权重能存活下来。
  • 相关性结构是变体之间失败模式的重叠。在相同边缘案例上失败的两个提示词不会给你带来任何多元化收益。组合的尾部风险降低来自于失败分布真正不同的变体——不同的推理链、不同的 few-shot 锚点、不同的任务分解方式。
  • 再平衡频率是你根据观察到的各细分领域性能重新分配权重的频率。对于大多数产品来说,每天一次波动太大;每季度一次对于模型升级周期来说又太慢。正确的答案通常是每周一次,并配有熔断机制,当退化信号触发时可以更快地进行再平衡。
  • 风险预算是任何新变体的配置上限。一个生产环境证据稀薄的新添加提示词,无论其离线表现多么出色,都不应该在第一天就获得 50% 流量的控制权。

这里的心理转变是从优化(optimization)到配置(allocation)。优化假设你了解目标函数并能找到全局最大值。配置则接受目标函数会发生偏移的事实——模型升级发布、用户群体增长、上游工具行为改变——而纪律是维持一个可辩护的敞口概况,而不是赢得一场固化的比赛。

运营层必须具备的样子

目前大多数提示词管理工具只是带有 UI 的版本控制。这很有必要,但还不够。一个组合需要现有工具大多不具备的三种额外能力:

一个了解权重而非仅仅版本的注册表。 最低限度的数据结构是 (prompt_id, version, segment, weight, observed_performance_window)。当前一代的注册表——MLflow、Langfuse、Braintrust、PromptLayer、Traceloop、Agenta——对前两列追踪得很好。细分领域(segment)维度通常只是一个标签或标注,而不是一等公民概念。权重作为一个系统可以再平衡的管理量几乎完全缺失;A/B 测试原语仅止步于“标记两个变体并随机交替”。那是抛硬币,不是配置策略。生产级组合通过注册表拥有的加权选择器路由流量,再平衡意味着写入新权重,而不是提升一个新的“生产”别名。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates