跳到主要内容

14 篇博文 含有标签「metrics」

查看所有标签

不会说谎的 AI 产品指标:行为信号比点赞评分更可靠

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能满意度评分是 4.2/5,用户点赞率高达 68%,A/B 测试显示任务完成率提升了 12%。团队决定上线。六周后,用户已悄然绕开它,遇到真正重要的事情时不再使用。

这就是指标表演。你优化的是看起来像成功的信号,而不是真正的成功。你收集到的反馈来自那 8% 愿意评分的用户——偏向极度满意和极度不满的两端,对那沉默的大多数一无所知——他们发现该功能时不时不可靠,于是悄悄停止信任它了。

构建 AI 功能需要一套与传统软件不同的度量哲学。你从第一天起就埋下的信号,决定了你是否能足够快地学习并改进,还是花六个月追着一个纹丝不动的满意度分数跑。

衡量真实的 AI 编程生产力:能在 90 天滞后期中幸存的指标

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数采用 AI 编程工具的团队都会遇到同样的瓶颈。第一个月看起来像是成功案例:PR 吞吐量上升,Sprint 速率在攀升,工程经理正在制作幻灯片准备向领导层汇报。到了第三个月,事情悄然发生了变化。事故率开始回升。资深工程师在代码审查上花费了更多时间。一个简单的 Bug 修复现在需要理解一段团队中根本没人写过的代码。生产力的提升已经消失殆尽 —— 但衡量体系从未捕捉到这一点。

问题在于,大多数团队最先关注的指标 —— 生成的代码行数、合并的 PR 数量、消耗的故事点数 —— 对于 AI 辅助开发来说是错误的衡量单位。它们衡量的是产出代码的成本,而不是持有代码的成本。AI 让产出几乎变得免费,却让持有成本保持不变。