跳到主要内容

试点坟场:为什么企业级 AI 落地在演示后会失败

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的 AI 演示确实令人印象深刻。高管观众们纷纷点头,工程副总裁(VP of Engineering)直言“这就是未来”,试点项目也获得了真金白银的预算批准。六个月后,周活跃用户数(WAU)停滞在 12%。在全体会议上,这款工具会被客气地提及。没人忍心宣布它已经失败。这就是试点坟场(pilot graveyard)——优秀的演示项目最终消亡的地方。

这种失败并非个案。大约 88% 的企业 AI 试点项目从未进入生产阶段。只有 6% 的企业成功地将生成式 AI 项目从试点推向了具有一定规模的生产环节。从“会议室里令人惊艳”到“日常工作流中的支柱”之间的巨大鸿沟,正是大多数企业 AI 投资付诸东流的地方。

原因不在于模型,而在于演示之后发生的一切。

从概念验证(POC)到生产的鸿沟是一个组织性问题

首先要理解的是,演示到底证明了什么。概念验证证明了在数据整洁、范围明确且有团队辅助评估的情况下,模型可以在代表性输入上产生有用的输出。它并不能证明员工会改变习惯、真实的生产数据是可用的、与现有系统的集成是可行的,或者有人会负责让它运转起来。

数据说明了一切。当被问及为什么试点会失败时,企业给出的理由惊人地一致:没有明确的业务负责人、技术成功指标与实际业务结果不匹配,以及数据基础设施尚未准备好进入生产。这些都是组织层面的特征,而非技术问题。

底层的动态变化源于定义上的失败:POC、试点(Pilot)和生产(Production)被视为一个连续的过程,而实际上它们是面向三种不同受众的三种不同产品。POC 为工程师回答了“AI 能做到这一点吗?”;试点为财务部门回答了“这会产生投资回报率(ROI)吗?”;生产则为产品部门回答了“人们每天都会用它吗?”。大多数企业只回答了第一个问题,宣布胜利,然后纳闷为什么用户参与度会停滞不前。

独立应用陷阱

在企业 AI 采用率数据中,最明显的信号是集成工具与独立工具在使用率上的差异。当相同的底层能力作为嵌入现有工作流的内联工具提供,而不是作为用户必须切换到的独立聊天界面提供时,使用率会产生 30 到 50 个百分点的差异。

这一点毫不夸张。在集成开发环境(IDE)中使用嵌入式 AI 编程助手的开发者,其日活跃率高达 70% 以上。而使用独立聊天机器人获取编程帮助的开发者呢?这一比例约为 28% —— 这还是在那些有意识选择使用的开发者中的数据。切换到独立标签页的上下文切换成本,是一种在每一次操作中都会累加的“摩擦税”。如果让一名处于心流状态的开发者去使用一个新工具,大多数人是不会去的。

这种模式在各个职能部门不断重复。嵌入在 Google Docs 或 Word 中的 AI 写作助手,其参与度明显高于独立的 AI 写作工具,这并不是因为它们更好,而是因为它们出现在工作发生的地方。集成在 Slack 中的企业搜索 AI 表现优于需要跳转的企业搜索门户。内联代码审查机器人表现优于代码审查仪表板。

对于构建或部署 AI 功能的团队来说,其启示是非常直接的:分发表面(distribution surface)与功能本身同样重要。一个距离工作发生地仅需一次点击的 AI 功能,与一个嵌入在工作流中的 AI 功能,并不是同一种产品。大多数企业 AI 试点默认选择独立应用,因为这样更容易构建和演示。这种默认设置是一个部署决策,在任何用户接触到产品数月之前,它就已经决定了采用率的走向。

没人预估过的变更管理税

波士顿咨询(BCG)记录了从业者早已怀疑的事实:部署 AI 的工作大致可以分解为 10% 的算法和模型、20% 的数据和技术,以及 70% 的人员、流程和文化。大多数企业 AI 投资完全颠倒了这一比例。技术工作获得了真正的工程资源和专用时间,而组织工作只得到了一份关于“未来工作”的 PPT 演示稿。

变更管理并非虚无缥缈的东西,它是企业 AI 的主要工程约束。想想看,要让一个 AI 工具在全企业达到 60% 以上的周活跃率,实际上需要发生什么:员工需要相信它对他们的具体任务(而不仅仅是演示)确实有用;经理们需要为采用曲线创造空间,而不是期望立即获得生产力提升;激励机制需要奖励使用该工具的行为,而不是绕过它的行为;并且需要有威望的人显眼地使用它并表示它很有帮助。

如果没有明确的投入,这一切都不会发生。以下是几个能将成功的推广与试点坟场区分开来的模式:

触达管理层的赞助支持。 CEO 的认可只是基本门槛,对日常采用几乎无关紧要。决定使用还是跳过某个工具的行为发生在个人和团队层面。经理的行为 —— 他们是否以可见的方式使用该工具、是否在 1 对 1 面谈中询问相关情况、是否调整工作量预期以留出学习曲线 —— 是预测团队层面采用率最关键的变量。那些获得了 VP 签字但跳过了经理赋能环节的推广活动,通常会陷入停滞。

嵌入团队中的变革捍卫者,而不是 IT 联络员。 最有效的采用计划会在每个团队中确定几位热情的早期采用者,为他们提供额外培训和直接反馈渠道,并让他们在同事中成为显眼的倡导者。同事之间的影响比公司层面的培训课程更具说服力,效果高出 3 到 5 倍。

围绕工作流结果而非工具指标进行衡量。 追踪登录次数和提示词(Prompt)次数并不能提供任何有用的信息。区分真实采用与表演性合规的信号是任务层面的:这个团队的发版速度变快了吗?支持工单的解决时间缩短了吗?特定工作类型的输出质量提高了吗?将 AI 采用指标与实际工作流结果挂钩的团队,可以不断迭代有效的方案。而只追踪月活跃用户(MAU)的团队,只是在盯着数字发呆。

数据质量是演示中不可告人的秘密

POC 运行在经过你精心策划的数据上,而生产环境则运行在其他所有混乱的数据之上。

企业数据是碎片的、标签不一致的、部分过时的,并且充满了复杂的访问控制。你的数据工程团队为了演示而整理出的干净导出数据,通常耗时三周并做了多次妥协。在生产环境中,AI 工具需要处理那些原始且混乱的数据。在企业级 AI 的实际实施中,40% 到 60% 的工作量都在于数据集成——这个数字几乎从未出现在试点预算中,因为在演示阶段根本没有提到它。

失败的模式通常是这样的:试点项目在代表性样本上展示了出色的输出质量,利益相关者批准了推广预算,工程团队开始进行生产集成,结果发现:喂给模型所需的数据流水线并不存在、各业务部门之间的 Schema 不一致,或者需要安全团队尚未批准的权限。六个月后,推广活动因“数据准备不足”而受阻——这确实是事实,但真正的失败在于,在承诺推广时间表之前,没有对数据基础设施的工作范围进行评估。

做得好的团队会将数据就绪评估作为试点的一部分,而不是在试点之后才去做。他们会在实际的生产数据样本上运行模型,而不是使用清洗过的演示数据集。他们在推广开始前就确定了需要构建或修复的集成点。虽然这会给试点阶段增加几周的时间,让时间表看起来没那么惊艳,但它能产生一个不会在接触现实后立即崩溃的生产环境评估。

责任真空

在失败的企业级 AI 推广中,有一个结构性特征经常出现:没有一个人对生产结果负责。

数据科学团队负责模型质量。IT 团队负责基础设施。申请工具的业务部门负责用例。学习与发展(L&D)团队负责培训。当采用率停滞不前时,每个团队都会指责是对另一个团队的依赖出了问题。模型团队说用例太窄;IT 团队说业务部门没有定义需求;业务部门说用户没经过培训;L&D 团队说他们没拿到好的培训素材。

这就是责任真空。这并不是任何个人团队的失败,而是推广组织方式的结构性缺陷。成功的企业级 AI 部署通常有一个指定的业务负责人(Product Owner),其绩效指标是生产环境的采用率,并拥有解决跨团队障碍的预算权,其职责涵盖从试点到生产再到持续改进的全生命周期。

这并不是什么新见解。所有成功的企业级软件推广都是这样组织的。错误在于将 AI 视为某种特殊的东西,认为它可以在没有那些支撑其他企业级产品成功的组织架构的情况下,莫名其妙地取得成功。

真正起作用的实战手册

那些能够从引人入胜的演示转向承载实际业务工作流的企业,往往遵循一个值得明确说明的一致序列。

在试点开始前定义生产环境的成功标准。 不是“用户觉得它很有帮助”,而是可衡量的结果:解决时间缩短 20%,从初稿到发布的时间缩短 30%,特定类别的工单量减少。如果你无法预先定义生产环境的成功标准,你就无法区分哪些试点项目该毕业,哪些不该毕业。

在广泛推广之前,深耕一个高价值工作流。 将横向 AI 工具部署到 20 个用例中,每个用例仅有 5% 的深度,最终会导致 WAU(周活跃用户)只有 5-10% 并走向失败。纵向部署到一个真正不可或缺的工作流中——让使用 AI 成为阻力最小的路径,而不是一个额外的步骤——其 WAU 能达到 60-70%,并能创造出驱动组织自发扩张的内部案例。

将前 90 天视为变革管理冲刺,而非单纯的上线。 大多数采用结果在头三个月就决定了。用户在第二周形成的行为(跳过它、偶尔使用,或默认使用)往往具有粘性。在前 90 天投入大量资源进行变革管理、展示领导层示范作用以及建立快速反馈闭环,其投资回报率(ROI)比你在同一时期能做的任何模型改进都要高。

在工具层暴露摩擦,而不是在培训层。 当用户不使用时,本能反应是增加培训。通常正确的做法是减少摩擦。如果用户跳过该工具,问题不在于“我们如何教会他们使用它?”,而在于“为什么不使用它时当前的工作流反而更快?”摩擦点映射(Friction mapping)——观察一小组真实用户在没有指导的情况下尝试使用工具——能比任何调查都更有效地揭示具体的摩擦点。

从第一天起就为工作流结果建立度量机制。 真正关键的指标——任务完成时间、特定工作类型的错误率、下游质量信号——都需要在推广设计时就内置埋点度量。那些事后才补指标的团队,通常没有足够的数据在采用率停滞时做出明智的调整决策。

核心支撑与被遗弃工具的区别

尽管执行起来并不容易,但背后的模式非常清晰:在企业工作流中成为核心支撑(Load-bearing)的 AI 工具,往往嵌入在工作实际发生的场景中,由其职责取决于生产环境落地的人负责,并由为生产环境而非演示环境设计的数据基础设施提供支撑,同时在引入时投入了与组织变革需求相匹配的变革管理成本。

大多数企业 AI 试点项目都不满足这些条件。它们往往是使用干净演示数据的独立应用,没有具体的负责人,仅凭一段培训视频和全体会议上的提及就开始推行。令人惊讶的不是 88% 的项目未能进入生产环境,而是剩下的 12% 在同样忽略了这些清单项的情况下,竟然获得了成功。

演示(Demo)解决的是最简单的问题:证明技术是可行的。而试点项目的坟场里,到处都是止步于此的项目。

References:Let's stay in touch and Follow me for more thoughts and updates