跳到主要内容

无需 PR 的 Prompt 修改:你的 AI 团队正在失效的交付速率指标

· 阅读需 11 分钟
Tian Pan
Software Engineer

一位工程负责人(Head of Engineering)在周一早晨打开了研发速率仪表盘。每周合并的 PR 数量:持平。完成的故事点:持平。改动的代码行数:低得可疑。图表显示,AI 团队在这个季度表现平平。而在两个楼层之外,那支团队在三周内重写了七次系统提示词(System Prompt),更换了一个让工具调用准确率翻倍的工具描述,增加了六个新的 few-shot 示例,并不断调整重排序(Rerank)指令,直到产品感觉像是一个完全不同的应用。所有这些工作都没有出现在 PR 图表中。但对用户来说,这些改变无处不在。

AI 团队所做的改动与工程仪表盘所测量的指标之间的不对称,已成为 2026 年最具影响力的误判。在重度依赖 AI 的产品中,行为的改变正日益与代码的改动解耦,而支配了软件组织十五年的指标——PR 吞吐量、提交量、涉及的代码行数——衡量的都是代码的改动。一个团队可能每周都在重塑线上响应的分布,但在领导层信任的每一张图表上,他们看起来却无所事事。

这并不是一个关于指标纯洁性的争论,而是一个操作层面的问题。通过这些仪表盘进行管理的领导者,在进行人员配置决策、设定 OKR 以及决定哪些团队需要帮助时,所依据的信号系统性地遗漏了 AI 产品行为变化的根本来源。解决方法不是放弃速率追踪,而是在发生真实变化的层面进行测量,并围绕提示词建立一套与其真实影响相匹配的评审规范,而不是强迫每一次措辞微调都要走沉重的代码评审流程。

为什么提示词避开了仪表盘

有三个结构性原因解释了为什么提示词逃脱了传统的速率追踪。

首先是文件形态。提示词存在于 YAML 文件、JSON 配置、源代码中的系统提示词字符串、评测(Eval)固件中,或者越来越多地存在于从独立运行时服务的专用提示词注册表(Prompt Registry)中。对一个 4,000 token 的系统提示词进行的修改,在配置文件中可能只表现为单行差异。代码行数改动指标对它的计算低了三个数量级。而提示词注册表中的更改甚至根本不会触及应用程序的代码仓库。

其次是部署形态。注册表中的提示词可以在不重新部署代码的情况下发布。许多团队通过别名(如 productionstagingcanary)来管理提示词版本,并通过切换别名而非合并代码来进行晋升。PR 图表毫无波动,但在别名更新的那一刻,生产环境的行为就发生了改变。

第三是评审形态。即使提示词存在于代码库中,团队也经常将它们排除在完整的代码评审流程之外,因为对于“仅仅是措辞微调”来说,沉重的流程显得小题大作。这种豁免是一种合理的局部优化,但却造成了全局盲区:最有可能改变用户端行为的改动,受到的过程审查最少,遥测数据也最稀缺。

共同的影响是,从前 AI 时代的软件组织继承下来的速率仪表盘,正越来越多地测量那些剩下的工作——鉴权重构、第三方 SDK 升级、基础管线——却遗漏了产品中演进最快的部分。

误诊的螺旋

当仪表盘出错且决策源于仪表盘时,后果会以一种可识别的模式复合增长。

领导者看着平平的 PR 吞吐量,得出 AI 团队遇到瓶颈或资源不足的结论。他们重新分配人力、重组团队,或者施压要求更多地“出货”。团队的反应是炮制出能满足仪表盘要求的 PR——微小的重构、基础设施整理、文档工作——而真正的产品行为改进工作(提示词迭代)则被挤到了边缘。报告的速率上升了,但真实的产品速率并没有。三个季度后,审计会询问为什么投入了这么多却几乎没有可见的改进,而团队没有清晰的方法来证明他们实际做过的工作,因为没有任何系统在追踪它。

2025 年的 METR 研究发现,使用 AI 工具的开发者感觉快了 20%,但测量结果却慢了 19%——这中间存在近 40 个百分点的感知差距。同样的差距也以相反的方向存在于行业的各种仪表盘中:那些正在发布行为改动的团队看起来毫无产出,而那些做着恰好能产生大量 PR 的低杠杆工作的团队,反而看起来像是高绩效者。这种误诊并不微妙,只是如果你只看代码形态的指标,它是不可见的。

捕捉提示词驱动速率的指标

在 2024 年至 2026 年间成熟的一系列提示词管理工具中,出现了一套替代指标。尤其是以下四个指标,涵盖了 PR 吞吐量原本应该告诉你的大部分信息。

**提示词版本更迭率(Prompt-version churn)**是最直接的类比。每个命名的提示词都有像文件一样的提交历史。统计每周的提交次数,并根据哪些提示词实际在线上运行进行加权。对于单个提示词来说,这个信号可能存在噪音——有些提示词自然会趋于稳定,有些则会持续迭代数月——但在团队层面汇总后,它能很好地追踪有意识的行为改变频率。使用 MLflow 提示词注册表、PromptLayer、Braintrust 或 Maxim 的团队报告称,这作为一个领先指标,与产品变化的关联性远高于 PR 吞吐量。

**每周评测集增量(Eval-suite delta per week)**衡量了团队对“正确”定义理解的扩展速度。一个团队如果本周增加了 12 个新的评测案例,就意味着他们编码了 12 个希望模型满足的新约束。这项工作是货真价实的产品工作——它定义了模型必须服务的表面——但在传统的速率图表上却无处体现。追踪评测集的大小和每周增量,能让评测策展工作从隐形的脚手架变成一等产出。

**行为回归率(Behavioral regression rate)**捕捉了成本端。在本周发布的提示词改动中,有多少比例导致了至少一个评测案例发生回归?一个在保持低回归率的同时快速发布的团队是在安全地前进。而回归率高的团队则是在没有安全网的情况下盲目迭代,其速率是虚假的。这个指标也自然地产生了对更好评测覆盖率的驱动力——你无法测量没有案例的回归。

**线上响应分布偏移(Production response distribution shift)**是最难建立但最具诊断意义的。它衡量了每周线上响应分布在团队关注的维度上发生了多少变化:响应长度、拒绝率、情感倾向、幻觉标记、格式合规性、工具调用模式。一个团队可能整周都在发布提示词编辑,却没有产生可衡量的分布偏移,这意味着这些迭代只是在微调。而一个团队发布了一次提示词编辑就明显改变了线上分布,这意味着真正的行为改变触达了用户。这个信号与领导层真正想知道的信息高度一致——这个团队在改变产品吗?——这比计算 PR 数量要有效得多。

这些指标现在都不再罕见。捕获它们的基础设施存在于每一个主流提示词管理平台中。现在的工作在于决定去追踪它们,并将其与传统指标并列放在仪表盘上。

在没有沉重门槛的情况下审查 Prompt 差异

问题的另一半在于审查纪律。将 Prompt 视为代码,从字面上强制要求每一次措辞调整都经过两人审查的代码审查关卡,会破坏 Prompt 最初之所以有用的迭代循环。一个 Prompt 工程师在一下午迭代拒绝话术时可能会运行 20 个变体。提交 20 个 PR 并不是解决办法。

已经趋于一致的规范在三个层面上发挥作用。

由 Eval 门控的晋级。 Prompt 的更改可以自由地进入注册表,但在评估套件(eval suite)针对新版本通过之前,它不能晋级到 production 别名。这个关卡是自动化的,而非人工。审查负担转移到了评估套件上,而这本来就应该是审查精力集中的地方。这种模式正是 Datadog、Braintrust 和 MLflow 等平台趋向一致的方向——Prompt 版本流经 staging 别名,而晋级取决于其相对于之前生产版本的评估通过率。

针对高风险层面的轻量级同行评审。 并非所有的 Prompt 都是等同的。金融理财智能体的系统 Prompt 比摘要助手的 Few-shot 示例更值得仔细审查。根据风险层面给 Prompt 打标签,并且只对高风险的 Prompt 要求同行评审。需要人工审查的变更量会下降一个数量级,同时又不会让危险的变更漏审。

评审界面中的行为差异。 当进行人工审查时,审查的不是文本差异(text diff),而是行为差异(behavior diff)。一个好的评审工具会向评审者并排展示在旧 Prompt 和新 Prompt 下运行的同一组 50 个代表性输入,并附带评估套件的裁定。评审者是在判断这种行为变化是否符合预期,而不是措辞是否优美。这将评审者的认知负荷降低到了单个工程师在 10 分钟内就能完成一个真实变更的程度。

这种结合产生了一个工作流:大多数 Prompt 编辑无需繁琐流程即可流转,评估套件自动捕获回归,而少数高杠杆的变更则得到了应有的关注。这是 Prompt 领域的“基于主干的开发(trunk-based development)”——遵循相同的原则:流程应与风险成正比,系统应使低风险变更的落地成本降到最低。

新仪表盘的样貌

实际的终态是一个拥有两列而非一列的速率仪表盘。传统列——PR、提交、故事点(story points)——仍然反映了确实需要在代码中进行的平台和基础设施工作。Prompt 层列报告 Prompt 版本更迭、每周评估套件增量、行为回归率以及生产分布偏移。两者都会被关注,且缺一不可。

一旦两列都出现,领导层的谈话方式就会发生改变。“AI 团队没有产出”变成了一个问题而非结论,而答案显而易见:也许他们真的没有产出,或者也许他们发布了 17 个 Prompt 版本,将评估套件扩大了 12%,保持回归率为零,并将生产环境的拒绝率降低了 4 个百分点。这绝不是一个沉寂的季度。只是仪表盘以前看不见这些。

率先搞清楚这一点的团队获得的与其说是速率优势,不如说是校准优势。他们将了解自己的 AI 产品每周实际的表现,并因此做出更好的人员配备和路线图决策。而其他人将继续盯着 PR 图表,纳闷为什么产品总是在他们脚下不断偏离方向。

References:Let's stay in touch and Follow me for more thoughts and updates