跳到主要内容

2 篇博文 含有标签「engineering-metrics」

查看所有标签

无需 PR 的 Prompt 修改:你的 AI 团队正在失效的交付速率指标

· 阅读需 11 分钟
Tian Pan
Software Engineer

一位工程负责人(Head of Engineering)在周一早晨打开了研发速率仪表盘。每周合并的 PR 数量:持平。完成的故事点:持平。改动的代码行数:低得可疑。图表显示,AI 团队在这个季度表现平平。而在两个楼层之外,那支团队在三周内重写了七次系统提示词(System Prompt),更换了一个让工具调用准确率翻倍的工具描述,增加了六个新的 few-shot 示例,并不断调整重排序(Rerank)指令,直到产品感觉像是一个完全不同的应用。所有这些工作都没有出现在 PR 图表中。但对用户来说,这些改变无处不在。

AI 团队所做的改动与工程仪表盘所测量的指标之间的不对称,已成为 2026 年最具影响力的误判。在重度依赖 AI 的产品中,行为的改变正日益与代码的改动解耦,而支配了软件组织十五年的指标——PR 吞吐量、提交量、涉及的代码行数——衡量的都是代码的改动。一个团队可能每周都在重塑线上响应的分布,但在领导层信任的每一张图表上,他们看起来却无所事事。

AI 时代的 DORA 指标:当部署频率开始“撒谎”

· 阅读需 11 分钟
Tian Pan
Software Engineer

这里有一个应该让你感到不安的数字:根据《2025 年 DORA AI 辅助软件开发现状报告》,人均合并的开发者 PR 增长了 98%,而每个 PR 导致的事件增长了 242.7%。部署频率看起来处于“精英”水平。但系统的单位变更故障率比 DORA 测量过的任何时期都要高。

你的仪表盘是一片绿色。你的值班工程师却精疲力竭。测量尺度出了问题。