跳到主要内容

AI 产品指标陷阱:当参与度看起来像价值却并非如此

· 阅读需 12 分钟
Tian Pan
Software Engineer

METR 于 2025 年发布的一项研究,邀请 16 位经验丰富的开源开发者预测 AI 工具能让他们效率提升多少。他们猜测会快 24%。该研究随后对 246 个真实任务(包括修复 bug、开发功能、代码重构)进行了测量,这些任务被随机分配到"允许使用 AI"和"禁止使用 AI"两组。结果是:使用 AI 的开发者实际上慢了 19%。研究结束后,参与者再次接受调查。他们仍然认为 AI 让自己效率提升了 20%。

这种感知生产力与实测生产力之间的差距,并非某项研究的特例。这是大多数团队目前衡量 AI 功能时所面临的核心问题。那些看起来像成功的信号,在很多情况下衡量的是工具的新鲜感,而非其实用价值。而上线后的头 30 天,是最不适合观察的时间窗口。

头 30 天并非表面看起来那样

当一项新 AI 功能上线时,使用指标几乎总是看起来很好看。会话数攀升,完成率居高不下,用户满意度达到峰值。产品经理截图发到 Slack 频道。

他们看到的,是新鲜感效应。研究表明,新鲜感效应会使评分平均虚高 30% 的标准差,且这种衰退会在八周内发生。对于消费级 AI 功能,这种模式更为显著。Statsig 对产品发布的分析发现,"如果你的指标在一个月后仍然强劲,那你可能真的找到了什么"——言下之意,默认预期是大多数指标在此之前都是虚高的。

消费端数据印证了这一点。考虑一款下载量超越 ChatGPT 速度的 AI 视频生成 App。第 1 天留存率:10%;第 7 天:2%;第 30 天:1%。下载量与持续价值完全不相关。该 App 在峰值期间估计每天烧掉 1500 万美元的推理费用,但产生的终身收入却只是其中的零头。

这不是个例。a16z《2025 年消费 AI 现状》报告发现,ChatGPT 的主要新功能上线——Pulse、Group Chats、Record、Shopping Research、Tasks、Study Mode——尽管初期采用数据亮眼,但在留存方面均未能突破。估计 18 亿免费 AI 平台用户中,只有 3% 转化为付费订阅者。

实际意义在于:AI 功能成功的典型衡量窗口(上线后两周)恰恰是被新鲜感膨胀污染最严重的窗口。发布看起来像是产品市场契合。你实际衡量的,是好奇心。

那些感觉不错但毫无预测价值的指标

几乎每个团队都会追踪 AI 功能的三类指标,但它们对实际影响的预测价值已被证明有限甚至相反。

会话数和完成率衡量用户是否出现并走完了流程。它们无法衡量结果是否有用。一个运行了 AI 摘要、读完后发现是错的、然后手动重做的用户,在你的分析中有 100% 的完成率。真正觉得摘要有帮助的用户也是如此。这两个事件看起来完全相同。

接受率是开发者工具领域的典型案例。GitHub Copilot 的早期研究报告了接受率,并将其定性为生产力的证据。但随后的独立分析发现,使用 Copilot 的开发者 bug 率明显更高,而问题吞吐量保持不变。代码被接受了,代码却更差了。接受率衡量的是 UI 交互,而非结果。

转移率是客服领域接受率的等价物。一个让客户沮丧到放弃对话的聊天机器人,转移率是 100%。一个用足够自信的语气给出虚假答案、让用户以为得到帮助后离开的机器人,转移率也是 100%。Qualtrics 对两万多名消费者的 2025 年调查发现,AI 客服的失败率是非 AI 渠道的四倍——但转移率作为一个类别,仍然是用于证明 AI 客服投资合理性的主要指标。

这三类指标的结构性问题在于:它们衡量的是 AI 系统的行为,而非其对系统本应改善之事物的影响。它们是偶然衡量了错误事物的代理指标。

感知与现实的差距在实践中是什么样的

METR 开发者研究值得深入探讨,因为它揭示了将自我报告作为备用衡量策略时的状况。当没有客观衡量手段时,团队会用用户调查和满意度评分代替。METR 研究中的开发者不需要被欺骗——他们真心感受到 AI 工具在提升生产力。生产力感受是真实的,生产力本身不是。

有几种机制驱动了这种反转:

  • 可见活动偏差:看着代码快速生成,会产生进展的主观感受。
  • 认知负荷降低:少打字感觉像少做事,这被登记为更高效。
  • 归因不对称:有 AI 参与的成功归因于 AI,失败归因于需求不清、问题复杂或底层代码。
  • 沉没成本合理化:在学习如何与 AI 工具协作上投入时间后,人们有动力相信这项投资得到了回报。

麦肯锡的研究增添了另一个维度:在开发者自评为高复杂度的任务上,节省的时间缩减到不足 10%。初级开发者在某些任务上使用 AI 辅助反而花了更长时间。生产力收益(如果存在的话)集中在低复杂度、定义清晰的工作上——恰恰是早期受控实验中最容易衡量的那类工作。

麦肯锡更广泛调查中的 88%/6% 数据捕捉了总体效果:88% 的组织积极使用 AI 工具,但只有 6% 报告了可衡量的财务成果。参与是近乎普遍的,价值是稀缺的。

真正能预测价值的指标

替换虚荣指标需要对结果进行埋点,而非对事件进行埋点。具体工具取决于功能领域,但在做对了的团队中有一些一致的模式。

对于开发者工具:

  • 提交代码比率——AI 建议中有多少比例在代码审查后不修改即提交,而非被大量编辑?接受率回答的是用户何时点击了接受,提交代码比率回答的是 AI 输出是否真的正确。
  • 下游 bug 率——使用 AI 辅助完成的任务,其 bug 率与未使用 AI 的任务是否相同?这需要将部署数据与 AI 使用数据关联起来,虽然繁琐,但直接衡量的是质量。
  • 每类任务的周期时间——不是整体速度(噪音太大),而是特定重复性任务类别的时间。如果你能标记"修复我自己写的测试 vs. 修复 AI 写的测试",你就能找到信号。

对于 AI 客服:

  • 已验证解决率——通过后续联系行为(客户是否带着同一问题回来了?)或明确验证(交互后的跟进确认)来确认。而非转移率。
  • CSAT 差值——同类问题中,AI 处理工单的满意度减去人工处理工单的满意度。这控制了问题复杂度。
  • 重复联系率——同一客户、同一问题、同一周内。真正解决的转移不会再回来,放弃的转移会。

对于任何 AI 功能:

  • 人工升级和覆盖率——用户对 AI 工作进行大幅重写、撤销或手动重做的频率?在 90 天后(新鲜感消退后),覆盖率低于 25% 是一个有用的基准。
  • 功能关闭率——最强烈的信号。如果超过 20% 接触过 AI 功能的用户主动关闭它,这是对价值的直接否决。
  • 30 天后的回访使用率——不是原始留存,而是第一周体验该功能的用户是否在第五周回来使用它。这过滤掉了随意探索者。

a16z 留存研究建议重新设定留存计算基准:不用 M12/M0 计算(其中包含了在 1-2 个月内流失的新鲜感效应采用者),而用 M12/M3。到第 3 个月,留下来的用户是那些找到了真正价值的人。该队列的长期留存率是衡量功能是否有效的更好信号。

领先指标与滞后指标,以及为什么这种区分很重要

团队陷入虚荣指标的一个原因是,真正重要的指标需要时间才能出现。Worklytics 对 Copilot 部署的分析发现,该工具的效果首先出现在领先指标中——提交频率、代码审查周转时间、开发者情绪——然后才出现在滞后指标中,如部署频率、产品发布速度和事故率。

这造成了一个真实的组织问题。团队需要早期信号来做产品决策。可用的早期信号大多恰恰是那些事后证明具有误导性的信号。真正能告诉你功能是否在创造价值的信号,在 4-8 周内都不会显现。

缓解措施是为与下游结果相关的领先指标埋点,而非为感觉不错但与任何事物都不相关的领先指标埋点。验证成本——用户检查 AI 输出所花费的时间和精力——是信任和留存的实用领先指标。对验证行为(AI 输出到下一个用户操作之间的时间、AI 建议上的编辑距离、AI 回答后的重新查询率)进行埋点的团队,可以获得用户是否足够信任输出而采取行动的早期信号。

高验证成本意味着用户将 AI 视为粗稿生成器,而非可靠助手。对某些工作流程来说这可能没问题,但需要明确。衡量完成率并看到高完成率的团队,不知道用户是在信任输出,还是在每次响应后花 10 分钟事实核查。

衡量失败背后的组织模式

MIT 对 150 个企业 AI 部署的研究发现,组织难以衡量 AI 对生产力和利润的影响——而这种衡量缺口预示着失败。有追踪机制的地方,价值实现率上升,风险事故下降。团队追踪采用率而非结果的地方,计划被放弃的比率更高。

这种模式是一致的:团队默认衡量 AI 使用情况而非业务成果,因为使用数据立即可用而成果需要数周才能实现。组织激励加剧了这种情况——发布 AI 功能的团队在滞后成果变得可衡量之前就已经进入了下一个迭代周期。

解决方案需要将 AI 功能埋点视为一等可交付成果,而非事后补充。在写第一个 prompt 之前就定义成果指标。将 90 天作为功能评估的最短衡量窗口。在每次分析中,将新鲜感队列(前 30 天)与评估队列(第 31-90 天)分开。并建立一种机制来衡量功能本应改变的那件事——无论是任务时间、错误率、返工率还是联系量——而不仅仅是功能自身的使用情况。

从 AI 功能中真正提取价值的团队,不是使用指标最高的那些。而是那些能够区分"一张展示人们尝试新事物的图表"和"一张展示人们发现了不可或缺之物的图表"的团队。

构建一个不说谎的衡量栈

任何 AI 功能的最小可行埋点:

  1. 一个对照条件或反事实——要么关闭 AI 的 A/B 测试,要么对用户在没有 AI 访问权限时会做什么进行影子追踪。没有这个,你无法将 AI 影响与外部因素分离。
  2. 一个下游成果指标——AI 本应改善的那件事。如果你在发布前无法定义这一点,你有一个规范问题,而非衡量问题。
  3. 一个 90 天留存衡量——专门针对有意义地使用了该功能的用户(而非只见过一次的用户),在第 30 天和第 90 天进行衡量。
  4. 一个覆盖/升级率——用户大幅纠正或放弃 AI 输出的频率。

这四个工具会比任何数量的会话分析都更快地给你一个诚实的答案。大多数团队发现设置它们需要大量投入。这项投入是了解你的 AI 功能是在创造价值还是仅仅在产生活动的正确代价。

目标不是对 AI 功能持悲观态度,而是准确。准确的衡量让你能够迭代那些有效的功能,停止投资那些无效的功能。依靠会话数和完成率运营的团队在盲目飞行——而前 30 天的数据正在让情况变得更糟。

References:Let's stay in touch and Follow me for more thoughts and updates