组织级古德哈特定律:当团队开始操控 AI 采用率指标
据一项研究显示,95% 的生成式 AI 试点项目从技术层面来看都算成功——而 74% 使用生成式 AI 的公司至今仍未展现出可量化的业务价值。这两个数字之间的落差并非巧合,而是一个被包装成技术问题的衡量问题。更糟糕的是,大多数组织无法准确诊断这一问题,因为负责衡量的人,恰恰就是被衡量的人。
这就是古德哈特定律(Goodhart's Law)在组织层面的体现:一旦某个 AI 采用率指标成为绩效目标,它就不再能衡量你真正在乎的事情了。指标持续攀升,实际结果却原地踏步甚至每况愈下。
团队操控 AI 采用率 KPI 的三种方式
指标操控发生在组织架构的每一个层级,而且很少表现为明显的造假行为——它看起来就像是人们在既定激励机制下完成本职工作。
产品经理优化对话次数。 达成"每月 AI 交互量"目标最简单的方式,就是在每个页面都放一个聊天按钮——无论对话式界面是否真的适合这些用户。团队学会了汇报会话数量,而不是有实际成效的会话数量。一个被打开后立刻关闭的 AI 助手,和一个帮用户节省了三十分钟工作时间的助手,在统计上毫无区别。
工程团队用功能标志包装现有功能,贴上 AI 标签。 当"本季度上线 AI 功能"成为 KPI,最快的路径就是:拿一个现有工作流,在其中某处加入一次 LLM 调用,然后把它算进去。高管汇报的功能数量听起来很有革命性,而用户实际获得的改善,从微乎其微到根本没有不等。
管理层把员工登录 AI 工具的时长汇报为生产力提升。 这是最顽固的操控形式,因为通常是无意识的。如果开发者一天有八小时开着 Copilot,你就汇报 AI 利用率很高。但你不会汇报 2025 年一项随机对照试验的结果——该研究发现,有经验的开源开发者在使用 AI 工具时完成任务的时间反而比不用时多 19%,因为那个数字不会出现在你的利用率看板上。
这三种方式的共同点在于:它们衡量的都是投入或活动,而非产出或结果。低边际成本使情况更加恶化:AI 让生成更多对话、更多功能、更多代码、更多摘要变得极为低廉,于是组织被海量的输出所淹没,却始终得不到真正的价值。
判断指标正被操控的早期信号
等到指标被明显操控时,损害通常已经造成。但有一些早期信号,会在管理层察觉之前率先出现。
PR 体量膨胀,却没有对应的质量提升信号。 一项分析发现,AI 采用与平均 PR 体量增加 154% 相关,代码变动率翻倍,而部署稳定性下降约 7.2%。当指标是"提交的 PR 数量"时,工程师就会提交更多 PR,代码产出量上升,但这些代码是否有必要存在则是另一回事。
采用率看板攀升,支持工单数量却原地不动甚至增长。 真实的效率提升会体现在下游指标上。如果 AI 对话量持续上升,但客户支持成本没有下降、用户任务完成率没有提升,那些对话就没有在看板所暗示的维度上发挥作用。
96/77 的分歧。 一个有用的早期信号:分别调查高管和一线员工,询问 AI 是否提高或降低了工作量。研究发现,96% 的高管预期 AI 带来生产力提升,而 77% 实际使用这些工具的员工表示 AI 增加了他们的工作量。如果你的组织也呈现这种分裂——高层乐观,基层疲惫——那么向上汇报的数字很可能与实际情况相去甚远。
经不起方法论审查的 ROI 声明。 IBM 数据显示,79% 的组织声称从 AI 中获得了生产力提升,但只有 29% 能够自信地衡量 ROI。如果你的生产力提升数字存在,但没有人能解释它是如何计算的——基准线是什么、对照组是什么、控制了哪些变量——那它很可能只是一个数字游戏。
为什么传统软件指标在这里失效
传统的软件采用率指标有一个结构性优 势:产出是确定性的。工单要么关闭了,要么没有。部署要么发出去了,要么没有。代码要么通过测试,要么失败。
AI 的产出既不确定,也无法统一观测。一个 AI 智能体可能通过五条不同的路径得出相同的正确答案,而这五条路径对审阅者而言看起来截然不同,但同样有效。语言模型能生成流畅、自信的文本,其中包含错误信息,且在没有领域专业知识的情况下很难发现。代码建议可能看起来正确并通过测试,却引入了数月后才会浮现的细微逻辑错误。
这使得标准的衡量方法在以下具体方面失效:
- 准确率指标忽略路径多样性。 "AI 给出了正确答案吗?"无法捕捉它是否高效地到达答案、是否尝试了不必要的风险路径,或者是否遗漏了人类本可察觉的问题。
- 采用率指标不惩罚低质量输出。 当工具在边际成本上是免费的,用户会生成更多输出,因为生成比评估更容易。数量指标奖励这种行为,结果指标不会。
- DORA 指标比大多数指标更具抵抗力,但仍无法形成闭环。 部署频率和变更失败率衡量的是系统级结果而非代码质量代理指标,因此更难被操控。但它们仍然无法告诉你,你所交付的软件是否真的在解决用户问题。
更深层的问题在于,大多数组织从未在任务层面定义过什么是好的 AI 辅助结果。没有这个定义,任何衡量都会漂移到衡量其他事情。
更难被操控的指标设计
你希望一个指标具备的核心属 性是:要操控它,就必须真正做到你所关心的事。以下三种设计比大多数指标更接近这一目标。
用户自选任务的完成率。 这衡量的是:针对用户自己选择开始的任务,AI 系统能在没有人工干预的情况下完成多少百分比。结构化任务的企业级目标通常在 85-95%。困难之处在于定义"完成",不能让 AI 以推给人工的方式来规避复杂情况。如果系统可以通过转交给人类来宣告任务完成,你什么问题都没解决。将完成定义为"用户不需要自己重做这件事"。
错误修正成本。 追踪修复 AI 生成内容所花费的下游人工时间。一个加快初始生成速度却使审查负担翻倍的工具,并没有在节省时间——它只是在转移成本。这个指标能暴露出吞吐量指标所掩盖的质量退化,且难以操控,因为要降低成本就必须提高 AI 的准确性。
特定工作流上用户自报的工作量减少。 这比前两者更软性,但比一般满意度调查更诚实。询问用户某个特定任务——一个你事先定义好的任务——使用工具是否比不使用明显省力。具体性至关重要:"这件事帮你节省了时间吗?"是可衡量、可预测的;"你喜欢这个 AI 工具吗?"只是一份情感调查。
一种常见的结构:使用对照组。一个在 60-90 天内随机分配的、无法访问该工具的小组,能给你提供真实的基准线。这很难被操控,因为你需要压制对照组的结果——而这本身就是一种信号。
这个框架刻意排除的内容:对话次数、上线功能数量、登录工具时长、供应商评估中的基准测试分数,以及生成的代码行数。这些指标都可能看起来很好,而组织却毫无进展。
没有人愿意 解决的失败模式
有一种特定的组织失败模式综合了以上所有问题,而这正是即使工程负责人已经认识到这些问题,它们仍然持续存在的原因。
汇报指标的团队,就是绩效被该指标评估的团队。AI 项目负责人的工作安全感与 AI 采用率数字的好看程度挂钩;工程经理的绩效评估记录着团队的 AI 功能交付速度;产品经理的奖金包含 AI 参与度。在这种结构下,没有人有激励——或者通常没有权力——汇报这些数字大部分都是衡量层面的表演。
这造成一个复合性问题:指标被操控的时间越长,组织对虚高数字的依赖就越深。一个已经连续十八个月汇报 40% 生产力提升的 AI 项目,不可能突然承认实际提升只有 5%。这些积累的"虚构故事"变成了一种负债,维持它比解开它更容易。
逃脱这种模式的组织有一个共同点:有人不依赖这些指标来评估自身表现,并且拥有审计这些指标的权力。外部测量团队、向产品链之外汇报的用户研究部门,或者把 AI 效率数据持平或为负视为有用信号而非需要解释的问题的领导层。衡量需要独立于衡量的结果。
诚实的基准线
大多数组织从当前 AI 工具中获得的真实生产力提升在 5-15% 之间,且集中在特定的、明确定义的任务类别中:常规模式下的代码自动补全、大型文档的摘要生成、已知格式的初稿生成。在这些任务类型之外,收益接近零 甚至为负。
这是一个有用的工具,只是并非采用率看板所描述的那种变革性生产力革命。真实数字与汇报数字之间的差距,就是古德哈特定律在规模层面的体现——不是欺诈,不是无能,而是在错误的激励机制下衡量错误事情所产生的可预测结果。
解决方案不是更好的 AI,而是:在部署工具之前定义什么是任务完成,衡量下游结果而非上游活动,并将需要数字好看的人与需要数字准确的人分开。
