无需 PR 的 Prompt 修改:你的 AI 团队正在失效的交付速率指标
· 阅读需 11 分钟
一位工程负责人(Head of Engineering)在周一早晨打开了研发速率仪表盘。每周合并的 PR 数量:持平。完成的故事点:持平。改动的代码行数:低得可疑。图表显示,AI 团队在这个季度表现平平。而在两个楼层之外,那支团队在三周内重写了七次系统提示词(System Prompt),更换了一个让工具调用准确率翻倍的工具描述,增加了六个新的 few-shot 示例,并不断调整重排序(Rerank)指令,直到产品感觉像是一个完全不同的应用。所有这些工作都没有出现在 PR 图表中。但对用户来说,这些改变无处不在。
AI 团队所做的改动与工程仪表盘所测量的指标之间的不对称,已成为 2026 年最具影响力的误判。在重度依赖 AI 的产品中,行为的改变正日益与代码的改动解耦,而支配了软件组织十五年的指标——PR 吞吐量、提交量、涉及的代码行数——衡量的都是代码的改动。一个团队可能每周都在重塑线上响应的分布,但在领导层信任的每一张图表上,他们看起来却无所事事。
