无需 PR 的 Prompt 修改：你的 AI 团队正在失效的交付速率指标

2026年5月13日 · 阅读需 11 分钟

Software Engineer

一位工程负责人（Head of Engineering）在周一早晨打开了研发速率仪表盘。每周合并的 PR 数量：持平。完成的故事点：持平。改动的代码行数：低得可疑。图表显示，AI 团队在这个季度表现平平。而在两个楼层之外，那支团队在三周内重写了七次系统提示词（System Prompt），更换了一个让工具调用准确率翻倍的工具描述，增加了六个新的 few-shot 示例，并不断调整重排序（Rerank）指令，直到产品感觉像是一个完全不同的应用。所有这些工作都没有出现在 PR 图表中。但对用户来说，这些改变无处不在。

AI 团队所做的改动与工程仪表盘所测量的指标之间的不对称，已成为 2026 年最具影响力的误判。在重度依赖 AI 的产品中，行为的改变正日益与代码的改动解耦，而支配了软件组织十五年的指标——PR 吞吐量、提交量、涉及的代码行数——衡量的都是代码的改动。一个团队可能每周都在重塑线上响应的分布，但在领导层信任的每一张图表上，他们看起来却无所事事。

这并不是一个关于指标纯洁性的争论，而是一个操作层面的问题。通过这些仪表盘进行管理的领导者，在进行人员配置决策、设定 OKR 以及决定哪些团队需要帮助时，所依据的信号系统性地遗漏了 AI 产品行为变化的根本来源。解决方法不是放弃速率追踪，而是在发生真实变化的层面进行测量，并围绕提示词建立一套与其真实影响相匹配的评审规范，而不是强迫每一次措辞微调都要走沉重的代码评审流程。

为什么提示词避开了仪表盘

有三个结构性原因解释了为什么提示词逃脱了传统的速率追踪。

首先是文件形态。提示词存在于 YAML 文件、JSON 配置、源代码中的系统提示词字符串、评测（Eval）固件中，或者越来越多地存在于从独立运行时服务的专用提示词注册表（Prompt Registry）中。对一个 4,000 token 的系统提示词进行的修改，在配置文件中可能只表现为单行差异。代码行数改动指标对它的计算低了三个数量级。而提示词注册表中的更改甚至根本不会触及应用程序的代码仓库。

其次是部署形态。注册表中的提示词可以在不重新部署代码的情况下发布。许多团队通过别名（如 production、staging、canary）来管理提示词版本，并通过切换别名而非合并代码来进行晋升。PR 图表毫无波动，但在别名更新的那一刻，生产环境的行为就发生了改变。

第三是评审形态。即使提示词存在于代码库中，团队也经常将它们排除在完整的代码评审流程之外，因为对于“仅仅是措辞微调”来说，沉重的流程显得小题大作。这种豁免是一种合理的局部优化，但却造成了全局盲区：最有可能改变用户端行为的改动，受到的过程审查最少，遥测数据也最稀缺。

共同的影响是，从前 AI 时代的软件组织继承下来的速率仪表盘，正越来越多地测量那些剩下的工作——鉴权重构、第三方 SDK 升级、基础管线——却遗漏了产品中演进最快的部分。

误诊的螺旋

当仪表盘出错且决策源于仪表盘时，后果会以一种可识别的模式复合增长。

领导者看着平平的 PR 吞吐量，得出 AI 团队遇到瓶颈或资源不足的结论。他们重新分配人力、重组团队，或者施压要求更多地“出货”。团队的反应是炮制出能满足仪表盘要求的 PR——微小的重构、基础设施整理、文档工作——而真正的产品行为改进工作（提示词迭代）则被挤到了边缘。报告的速率上升了，但真实的产品速率并没有。三个季度后，审计会询问为什么投入了这么多却几乎没有可见的改进，而团队没有清晰的方法来证明他们实际做过的工作，因为没有任何系统在追踪它。

2025 年的 METR 研究发现，使用 AI 工具的开发者感觉快了 20%，但测量结果却慢了 19%——这中间存在近 40 个百分点的感知差距。同样的差距也以相反的方向存在于行业的各种仪表盘中：那些正在发布行为改动的团队看起来毫无产出，而那些做着恰好能产生大量 PR 的低杠杆工作的团队，反而看起来像是高绩效者。这种误诊并不微妙，只是如果你只看代码形态的指标，它是不可见的。

捕捉提示词驱动速率的指标

在 2024 年至 2026 年间成熟的一系列提示词管理工具中，出现了一套替代指标。尤其是以下四个指标，涵盖了 PR 吞吐量原本应该告诉你的大部分信息。

**提示词版本更迭率（Prompt-version churn）**是最直接的类比。每个命名的提示词都有像文件一样的提交历史。统计每周的提交次数，并根据哪些提示词实际在线上运行进行加权。对于单个提示词来说，这个信号可能存在噪音——有些提示词自然会趋于稳定，有些则会持续迭代数月——但在团队层面汇总后，它能很好地追踪有意识的行为改变频率。使用 MLflow 提示词注册表、PromptLayer、Braintrust 或 Maxim 的团队报告称，这作为一个领先指标，与产品变化的关联性远高于 PR 吞吐量。

**每周评测集增量（Eval-suite delta per week）**衡量了团队对“正确”定义理解的扩展速度。一个团队如果本周增加了 12 个新的评测案例，就意味着他们编码了 12 个希望模型满足的新约束。这项工作是货真价实的产品工作——它定义了模型必须服务的表面——但在传统的速率图表上却无处体现。追踪评测集的大小和每周增量，能让评测策展工作从隐形的脚手架变成一等产出。

**行为回归率（Behavioral regression rate）**捕捉了成本端。在本周发布的提示词改动中，有多少比例导致了至少一个评测案例发生回归？一个在保持低回归率的同时快速发布的团队是在安全地前进。而回归率高的团队则是在没有安全网的情况下盲目迭代，其速率是虚假的。这个指标也自然地产生了对更好评测覆盖率的驱动力——你无法测量没有案例的回归。

**线上响应分布偏移（Production response distribution shift）**是最难建立但最具诊断意义的。它衡量了每周线上响应分布在团队关注的维度上发生了多少变化：响应长度、拒绝率、情感倾向、幻觉标记、格式合规性、工具调用模式。一个团队可能整周都在发布提示词编辑，却没有产生可衡量的分布偏移，这意味着这些迭代只是在微调。而一个团队发布了一次提示词编辑就明显改变了线上分布，这意味着真正的行为改变触达了用户。这个信号与领导层真正想知道的信息高度一致——这个团队在改变产品吗？——这比计算 PR 数量要有效得多。

这些指标现在都不再罕见。捕获它们的基础设施存在于每一个主流提示词管理平台中。现在的工作在于决定去追踪它们，并将其与传统指标并列放在仪表盘上。

在没有沉重门槛的情况下审查 Prompt 差异

问题的另一半在于审查纪律。将 Prompt 视为代码，从字面上强制要求每一次措辞调整都经过两人审查的代码审查关卡，会破坏 Prompt 最初之所以有用的迭代循环。一个 Prompt 工程师在一下午迭代拒绝话术时可能会运行 20 个变体。提交 20 个 PR 并不是解决办法。

已经趋于一致的规范在三个层面上发挥作用。

由 Eval 门控的晋级。 Prompt 的更改可以自由地进入注册表，但在评估套件（eval suite）针对新版本通过之前，它不能晋级到 production 别名。这个关卡是自动化的，而非人工。审查负担转移到了评估套件上，而这本来就应该是审查精力集中的地方。这种模式正是 Datadog、Braintrust 和 MLflow 等平台趋向一致的方向——Prompt 版本流经 staging 别名，而晋级取决于其相对于之前生产版本的评估通过率。

针对高风险层面的轻量级同行评审。 并非所有的 Prompt 都是等同的。金融理财智能体的系统 Prompt 比摘要助手的 Few-shot 示例更值得仔细审查。根据风险层面给 Prompt 打标签，并且只对高风险的 Prompt 要求同行评审。需要人工审查的变更量会下降一个数量级，同时又不会让危险的变更漏审。

评审界面中的行为差异。 当进行人工审查时，审查的不是文本差异（text diff），而是行为差异（behavior diff）。一个好的评审工具会向评审者并排展示在旧 Prompt 和新 Prompt 下运行的同一组 50 个代表性输入，并附带评估套件的裁定。评审者是在判断这种行为变化是否符合预期，而不是措辞是否优美。这将评审者的认知负荷降低到了单个工程师在 10 分钟内就能完成一个真实变更的程度。

这种结合产生了一个工作流：大多数 Prompt 编辑无需繁琐流程即可流转，评估套件自动捕获回归，而少数高杠杆的变更则得到了应有的关注。这是 Prompt 领域的“基于主干的开发（trunk-based development）”——遵循相同的原则：流程应与风险成正比，系统应使低风险变更的落地成本降到最低。

新仪表盘的样貌

实际的终态是一个拥有两列而非一列的速率仪表盘。传统列——PR、提交、故事点（story points）——仍然反映了确实需要在代码中进行的平台和基础设施工作。Prompt 层列报告 Prompt 版本更迭、每周评估套件增量、行为回归率以及生产分布偏移。两者都会被关注，且缺一不可。

一旦两列都出现，领导层的谈话方式就会发生改变。“AI 团队没有产出”变成了一个问题而非结论，而答案显而易见：也许他们真的没有产出，或者也许他们发布了 17 个 Prompt 版本，将评估套件扩大了 12%，保持回归率为零，并将生产环境的拒绝率降低了 4 个百分点。这绝不是一个沉寂的季度。只是仪表盘以前看不见这些。

率先搞清楚这一点的团队获得的与其说是速率优势，不如说是校准优势。他们将了解自己的 AI 产品每周实际的表现，并因此做出更好的人员配备和路线图决策。而其他人将继续盯着 PR 图表，纳闷为什么产品总是在他们脚下不断偏离方向。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

无需 PR 的 Prompt 修改：你的 AI 团队正在失效的交付速率指标

为什么提示词避开了仪表盘

误诊的螺旋

捕捉提示词驱动速率的指标

在没有沉重门槛的情况下审查 Prompt 差异

新仪表盘的样貌

Recommended Reading

关于 Tian Pan

为什么提示词避开了仪表盘​

误诊的螺旋​

捕捉提示词驱动速率的指标​

在没有沉重门槛的情况下审查 Prompt 差异​

新仪表盘的样貌​

Recommended Reading

关于 Tian Pan

为什么提示词避开了仪表盘

误诊的螺旋

捕捉提示词驱动速率的指标

在没有沉重门槛的情况下审查 Prompt 差异

新仪表盘的样貌