组织级古德哈特定律：当团队开始操控 AI 采用率指标

2026年5月5日 · 阅读需 10 分钟

Software Engineer

据一项研究显示，95% 的生成式 AI 试点项目从技术层面来看都算成功——而 74% 使用生成式 AI 的公司至今仍未展现出可量化的业务价值。这两个数字之间的落差并非巧合，而是一个被包装成技术问题的衡量问题。更糟糕的是，大多数组织无法准确诊断这一问题，因为负责衡量的人，恰恰就是被衡量的人。

这就是古德哈特定律（Goodhart's Law）在组织层面的体现：一旦某个 AI 采用率指标成为绩效目标，它就不再能衡量你真正在乎的事情了。指标持续攀升，实际结果却原地踏步甚至每况愈下。

团队操控 AI 采用率 KPI 的三种方式

指标操控发生在组织架构的每一个层级，而且很少表现为明显的造假行为——它看起来就像是人们在既定激励机制下完成本职工作。

产品经理优化对话次数。 达成"每月 AI 交互量"目标最简单的方式，就是在每个页面都放一个聊天按钮——无论对话式界面是否真的适合这些用户。团队学会了汇报会话数量，而不是有实际成效的会话数量。一个被打开后立刻关闭的 AI 助手，和一个帮用户节省了三十分钟工作时间的助手，在统计上毫无区别。

工程团队用功能标志包装现有功能，贴上 AI 标签。 当"本季度上线 AI 功能"成为 KPI，最快的路径就是：拿一个现有工作流，在其中某处加入一次 LLM 调用，然后把它算进去。高管汇报的功能数量听起来很有革命性，而用户实际获得的改善，从微乎其微到根本没有不等。

管理层把员工登录 AI 工具的时长汇报为生产力提升。 这是最顽固的操控形式，因为通常是无意识的。如果开发者一天有八小时开着 Copilot，你就汇报 AI 利用率很高。但你不会汇报 2025 年一项随机对照试验的结果——该研究发现，有经验的开源开发者在使用 AI 工具时完成任务的时间反而比不用时多 19%，因为那个数字不会出现在你的利用率看板上。

这三种方式的共同点在于：它们衡量的都是投入或活动，而非产出或结果。低边际成本使情况更加恶化：AI 让生成更多对话、更多功能、更多代码、更多摘要变得极为低廉，于是组织被海量的输出所淹没，却始终得不到真正的价值。

判断指标正被操控的早期信号

等到指标被明显操控时，损害通常已经造成。但有一些早期信号，会在管理层察觉之前率先出现。

PR 体量膨胀，却没有对应的质量提升信号。 一项分析发现，AI 采用与平均 PR 体量增加 154% 相关，代码变动率翻倍，而部署稳定性下降约 7.2%。当指标是"提交的 PR 数量"时，工程师就会提交更多 PR，代码产出量上升，但这些代码是否有必要存在则是另一回事。

采用率看板攀升，支持工单数量却原地不动甚至增长。 真实的效率提升会体现在下游指标上。如果 AI 对话量持续上升，但客户支持成本没有下降、用户任务完成率没有提升，那些对话就没有在看板所暗示的维度上发挥作用。

96/77 的分歧。 一个有用的早期信号：分别调查高管和一线员工，询问 AI 是否提高或降低了工作量。研究发现，96% 的高管预期 AI 带来生产力提升，而 77% 实际使用这些工具的员工表示 AI 增加了他们的工作量。如果你的组织也呈现这种分裂——高层乐观，基层疲惫——那么向上汇报的数字很可能与实际情况相去甚远。

经不起方法论审查的 ROI 声明。 IBM 数据显示，79% 的组织声称从 AI 中获得了生产力提升，但只有 29% 能够自信地衡量 ROI。如果你的生产力提升数字存在，但没有人能解释它是如何计算的——基准线是什么、对照组是什么、控制了哪些变量——那它很可能只是一个数字游戏。

为什么传统软件指标在这里失效

传统的软件采用率指标有一个结构性优势：产出是确定性的。工单要么关闭了，要么没有。部署要么发出去了，要么没有。代码要么通过测试，要么失败。

AI 的产出既不确定，也无法统一观测。一个 AI 智能体可能通过五条不同的路径得出相同的正确答案，而这五条路径对审阅者而言看起来截然不同，但同样有效。语言模型能生成流畅、自信的文本，其中包含错误信息，且在没有领域专业知识的情况下很难发现。代码建议可能看起来正确并通过测试，却引入了数月后才会浮现的细微逻辑错误。

这使得标准的衡量方法在以下具体方面失效：

准确率指标忽略路径多样性。 "AI 给出了正确答案吗？"无法捕捉它是否高效地到达答案、是否尝试了不必要的风险路径，或者是否遗漏了人类本可察觉的问题。
采用率指标不惩罚低质量输出。 当工具在边际成本上是免费的，用户会生成更多输出，因为生成比评估更容易。数量指标奖励这种行为，结果指标不会。
DORA 指标比大多数指标更具抵抗力，但仍无法形成闭环。 部署频率和变更失败率衡量的是系统级结果而非代码质量代理指标，因此更难被操控。但它们仍然无法告诉你，你所交付的软件是否真的在解决用户问题。

更深层的问题在于，大多数组织从未在任务层面定义过什么是好的 AI 辅助结果。没有这个定义，任何衡量都会漂移到衡量其他事情。

更难被操控的指标设计

你希望一个指标具备的核心属性是：要操控它，就必须真正做到你所关心的事。以下三种设计比大多数指标更接近这一目标。

用户自选任务的完成率。 这衡量的是：针对用户自己选择开始的任务，AI 系统能在没有人工干预的情况下完成多少百分比。结构化任务的企业级目标通常在 85-95%。困难之处在于定义"完成"，不能让 AI 以推给人工的方式来规避复杂情况。如果系统可以通过转交给人类来宣告任务完成，你什么问题都没解决。将完成定义为"用户不需要自己重做这件事"。

错误修正成本。 追踪修复 AI 生成内容所花费的下游人工时间。一个加快初始生成速度却使审查负担翻倍的工具，并没有在节省时间——它只是在转移成本。这个指标能暴露出吞吐量指标所掩盖的质量退化，且难以操控，因为要降低成本就必须提高 AI 的准确性。

特定工作流上用户自报的工作量减少。 这比前两者更软性，但比一般满意度调查更诚实。询问用户某个特定任务——一个你事先定义好的任务——使用工具是否比不使用明显省力。具体性至关重要："这件事帮你节省了时间吗？"是可衡量、可预测的；"你喜欢这个 AI 工具吗？"只是一份情感调查。

一种常见的结构：使用对照组。一个在 60-90 天内随机分配的、无法访问该工具的小组，能给你提供真实的基准线。这很难被操控，因为你需要压制对照组的结果——而这本身就是一种信号。

这个框架刻意排除的内容：对话次数、上线功能数量、登录工具时长、供应商评估中的基准测试分数，以及生成的代码行数。这些指标都可能看起来很好，而组织却毫无进展。

没有人愿意解决的失败模式

有一种特定的组织失败模式综合了以上所有问题，而这正是即使工程负责人已经认识到这些问题，它们仍然持续存在的原因。

汇报指标的团队，就是绩效被该指标评估的团队。AI 项目负责人的工作安全感与 AI 采用率数字的好看程度挂钩；工程经理的绩效评估记录着团队的 AI 功能交付速度；产品经理的奖金包含 AI 参与度。在这种结构下，没有人有激励——或者通常没有权力——汇报这些数字大部分都是衡量层面的表演。

这造成一个复合性问题：指标被操控的时间越长，组织对虚高数字的依赖就越深。一个已经连续十八个月汇报 40% 生产力提升的 AI 项目，不可能突然承认实际提升只有 5%。这些积累的"虚构故事"变成了一种负债，维持它比解开它更容易。

逃脱这种模式的组织有一个共同点：有人不依赖这些指标来评估自身表现，并且拥有审计这些指标的权力。外部测量团队、向产品链之外汇报的用户研究部门，或者把 AI 效率数据持平或为负视为有用信号而非需要解释的问题的领导层。衡量需要独立于衡量的结果。

诚实的基准线

大多数组织从当前 AI 工具中获得的真实生产力提升在 5-15% 之间，且集中在特定的、明确定义的任务类别中：常规模式下的代码自动补全、大型文档的摘要生成、已知格式的初稿生成。在这些任务类型之外，收益接近零甚至为负。

这是一个有用的工具，只是并非采用率看板所描述的那种变革性生产力革命。真实数字与汇报数字之间的差距，就是古德哈特定律在规模层面的体现——不是欺诈，不是无能，而是在错误的激励机制下衡量错误事情所产生的可预测结果。

解决方案不是更好的 AI，而是：在部署工具之前定义什么是任务完成，衡量下游结果而非上游活动，并将需要数字好看的人与需要数字准确的人分开。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

组织级古德哈特定律：当团队开始操控 AI 采用率指标

团队操控 AI 采用率 KPI 的三种方式

判断指标正被操控的早期信号

为什么传统软件指标在这里失效

更难被操控的指标设计

没有人愿意解决的失败模式

诚实的基准线

Recommended Reading

关于 Tian Pan

团队操控 AI 采用率 KPI 的三种方式​

判断指标正被操控的早期信号​

为什么传统软件指标在这里失效​

更难被操控的指标设计​

没有人愿意解决的失败模式​

诚实的基准线​

Recommended Reading

关于 Tian Pan

团队操控 AI 采用率 KPI 的三种方式

判断指标正被操控的早期信号

为什么传统软件指标在这里失效

更难被操控的指标设计

没有人愿意解决的失败模式

诚实的基准线