无需 PR 的 Prompt 修改:你的 AI 团队正在失效的交付速率指标
一位工程负责人(Head of Engineering)在周一早晨打开了研发速率仪表盘。每周合并的 PR 数量:持平。完成的故事点:持平。改动的代码行数:低得可疑。图表显示,AI 团队在这个季度表现平平。而在两个楼层之外,那支团队在三周内重写了七次系统提示词(System Prompt),更换了一个让工具调用准确率翻倍的工具描述,增加了六个新的 few-shot 示例,并不断调整重排序(Rerank)指令,直到产品感觉像是一个完全不同的应用。所有这些工作都没有出现在 PR 图表中。但对用户来说,这些改变无处不在。
AI 团队所做的改动与工程仪表盘所测量的指标之间的不对称,已成为 2026 年最具影响力的误判。在重度依赖 AI 的产品中,行为的改变正日益与代码的改动解耦,而支配了软件组织十五年的指标——PR 吞吐量、提交量、涉及的代码行数——衡量的都是代码的改动。一个团队可能每周都在重塑线上响应的分布,但在领导层信任的每一张图表上,他们看起来却无所事事。
这并不是一个关于指标纯洁性的争论,而是一个操作层 面的问题。通过这些仪表盘进行管理的领导者,在进行人员配置决策、设定 OKR 以及决定哪些团队需要帮助时,所依据的信号系统性地遗漏了 AI 产品行为变化的根本来源。解决方法不是放弃速率追踪,而是在发生真实变化的层面进行测量,并围绕提示词建立一套与其真实影响相匹配的评审规范,而不是强迫每一次措辞微调都要走沉重的代码评审流程。
为什么提示词避开了仪表盘
有三个结构性原因解释了为什么提示词逃脱了传统的速率追踪。
首先是文件形态。提示词存在于 YAML 文件、JSON 配置、源代码中的系统提示词字符串、评测(Eval)固件中,或者越来越多地存在于从独立运行时服务的专用提示词注册表(Prompt Registry)中。对一个 4,000 token 的系统提示词进行的修改,在配置文件中可能只表现为单行差异。代码行数改动指标对它的计算低了三个数量级。而提示词注册表中的更改甚至根本不会触及应用程序的代码仓库。
其次是部署形态。注册表中的提示词可以在不重新部署代码的情况下发布。许多团队通过别名(如 production、staging、canary)来管理提示词版本,并通过切换别名而非合并代码来进行晋升。PR 图表毫无波动,但在别名更新的那一刻,生产环境的行为就发生了改变。
第三是评审形态。即使提示词存在于代码库中,团队也经常将它们排除在完整的代码评审流程之外,因为对于“仅仅是措辞微调”来说 ,沉重的流程显得小题大作。这种豁免是一种合理的局部优化,但却造成了全局盲区:最有可能改变用户端行为的改动,受到的过程审查最少,遥测数据也最稀缺。
共同的影响是,从前 AI 时代的软件组织继承下来的速率仪表盘,正越来越多地测量那些剩下的工作——鉴权重构、第三方 SDK 升级、基础管线——却遗漏了产品中演进最快的部分。
误诊的螺旋
当仪表盘出错且决策源于仪表盘时,后果会以一种可识别的模式复合增长。
领导者看着平平的 PR 吞吐量,得出 AI 团队遇到瓶颈或资源不足的结论。他们重新分配人力、重组团队,或者施压要求更多地“出货”。团队的反应是炮制出能满足仪表盘要求的 PR——微小的重构、基础设施整理、文档工作——而真正的产品行为改进工作(提示词迭代)则被挤到了边缘。报告的速率上升了,但真实的产品速率并没有。三个季度后,审计会询问为什么投入了这么多却几乎没有可见的改进,而团队没有清晰的方法来证明他们实际做过的工作,因为没有任何系统在追踪它。
2025 年的 METR 研究发现,使用 AI 工具的开发者感觉快了 20%,但测量结果却慢了 19%——这中间存在近 40 个百分点的感知差距。同样的差距也以相反的方向存在于行业的各种仪表盘中:那些正在发布行为改动的团队看起来毫无产出,而那些做着恰好能产生大量 PR 的低杠杆工作的团队,反而看起来像是高绩效者。这种误诊并不微妙,只是如果你只看代码形态的指标,它是不可见的。
