AI 功能下线决策:当指标显示成功但用户却不买账时
2025 年,42% 的公司放弃了大部分 AI 计划,高于一年前的 17%。令人震惊的不是放弃率,而是延迟。这些项目中的大多数在最终被叫停之前,已经处于各种“快准备好了”的阶段长达 6 到 12 个月。演示是成功的。指标看起来合情合理。团队投入了大量精力。于是,这个功能在证据早已指向关停之后,依然继续徘徊,消耗着预算和信誉。
AI 领域最难的产品决策不是构建什么,而是何时停止构建一个技术上可行但实际上无用的东西。
演示陷阱:为什么 AI 功能总能获得更长的宽限期
传统软件功能的失败方式很明显。按钮失效、页面崩溃、用户投诉。AI 功能的失败模式则要隐蔽得多:它们在演示和受控环境中表现惊人,但在现实条件下却逐渐显露出不足。
一个呼叫中心团队部署了一个 AI 摘要工具,其评估集的准确率达到了 90% 以上。领导层非常振奋。六个月后,主管们在每次通话后仍然手动编写笔记。该工具在技术上是可行的——准确率指标是真实的——但那 10% 的错误率偏偏出现在主管们最关心的案例上:投诉升级的客户、合规敏感的互动、复杂的多方通话。指标显示成功,行为却显示失败。
这种模式在每一类 AI 功能中都会重复。LLM 驱动的搜索返回了看似合理的结果,却漏掉了用户需要的特定文档。AI 助手生成的草稿初看可用,但修改它们所需的时间比从零开始写还要长。自动化分类流水线在 80% 本就简单的案例中达到了 95% 的准确率。
演示陷阱之所以有效,是因为 AI 功能产生的输出看起来很聪明。一个坏掉的按钮什么也产出不了。而一个平庸的 AI 功能会产生一些东西——这些东西足以维持希望,却又差到足以侵蚀信任。
撒谎的指标
最危险的 AI 功能是那些拥有健康仪表盘的功能。团队跟踪采用率、Prompt 数量、响应延迟和用户满意度评分。全都是绿色的。但功能仍然在失败。
原因如下:标准产品指标衡量的是参与度,而不是价值。它们回答了“用户是否在接触这个?”,但没有回答“这是否真的有帮助?”。对于 AI 功能来说,这种区别至关重要,因为用户参与 AI 的原因并不等同于成功:
- 好奇心爆发:用户在功能发布时尝试,在第一周产生令人印象深刻的采用数据,然后消失。一个产品团队追踪到其 AI 助手 第一周留存率为 73%,但 30 天后的回访率仅为 12%。
- 义务性参与:企业用户采用这些功能是因为其经理要求这样做,产生了没有效用的使用量。仪表盘显示的是日活跃用户;现实却是为了合规的日活跃。
- 部分任务参与:用户将 AI 功能作为工作流中的一个步骤调用,然后默默地重新修改其输出。该功能因“完成交互”而获得功劳,而用户承担了实际的工作。
最重要的指标是团队很少监测的:独立于 AI 功能的任务完成率。如果用户在有无该功能的情况下,完成相同任务的速度和质量大致相同,那么该功能就是摆设——虽然存在,但不承重。
第二重要的指标是编辑距离 (Edit Distance)。当用户接受 AI 生成的输出时,他们在正式使用前修改了多少?如果编辑距离超过 40%,意味着用户实际上是在重写输出。你的 AI 功能不是在协助——它只是生成了一个初稿,作为激发你写出真正想要的内容的心理提示。
关停决策前的五个先行指标
当你在讨论是否关闭一个 AI 功能时,你已经迟了几个月。这些先行指标可以在决策变得显而易见前的三到六个月,可靠地预示关停:
1. 绕过系统的影子系统。 用户构建了完全绕过 AI 功能的并行工作流。电子表格、手动流程、人们分享答案而不是使用工具的 Slack 频道。用户不会抱怨摩擦——他们只是停止使用。如果你看到用户基数增长而使用量趋于平稳,请寻找影子系统。
2. 支持票据悖论。 关于 AI 功能的支持票据减少,不是因为它运行得更好了,而是因为用户已经放弃报告问题了。投诉量下降伴随着使用量持平或下降是红灯,而非绿灯。
3. 永远无法实现的“即将达成”里程碑。 团队承诺进入生产准备状态已经超过两个季度了。总会有“最后一个”边界案例、一个集成或一个模型升级,据说能弥补差距。如果“演示可用”与“生产可用”之间的差距在 90 天内没有明显缩小,那它可能永远不会缩小。
4. 超级用户的流失。 你最成熟的用户——那些拥有最深工作流和最高标准的客户——会最先停止使用该功能。他们是金丝雀。如果他们在普通用户还在尝试时就已经避开它,那么这个功能就有麻烦了。
5. 单位价值交付成本曲线趋于平缓。 你优化了 Prompt,改进了检索,调整了模型,并添加了护栏。每一次迭代都消耗了真实的工程时间,但对质量的提升越来越小。当你的改进曲线趋于渐近线时,你是在打一场错误的仗。
决策框架:关停、转型或坚持
并非每一个陷入困境的 AI 功能都应该被终结。有些功能需要缩减范围、更改目标用户,或是进行根本性的重新构思。以下是决策方法:
当抽象模型错误时,果断关停。 如果核心前提——“LLM 可以很好地完成这项任务并帮助用户”——在你的特定领域内是错误的,那么再多的提示词工程(Prompt Engineering)也无法解决问题 。可以通过这样一个问题来测试:如果你拥有一个零幻觉、零延迟的完美模型,用户是否仍然需要这个工作流?如果答案是“可能不需要”,那么问题不在于 AI 的质量,而在于产品市场匹配度(PMF)。
当价值存在但交互方式错误时,进行转型。 有时用户需要 AI 的能力,但不需要你提供的呈现形式。没人读的 AI 生成摘要,如果变成原始文档中的 AI 高亮关键词,或许就能发挥作用。用户避而远之的聊天机器人,如果作为现有工具中的行内建议(Inline Suggestions),或许就能奏效。在关停之前,先思考:这种智能是否有价值,只是交互模型出了问题?
当你拥有针对部分用户产生价值的明确证据,并有可行路径来扩大该用户群时,选择坚持。 “有些用户很喜欢它”只有在你能够清晰说明这些用户是谁、他们为何成功、以及他们与那些不喜欢的用户之间到底有何区别时才有效。如果没有这种具体性,“有些用户很喜欢它”只是一种沉没成本的自我安慰。
为什么团队会多坚持六个月
沉没成本问题在 AI 功能上比传统软件更严重,原因有三点:
第一,演示(Demo)令人印象深刻。 房间里的每一个人——包括高管、投资者和董事会成员——都看到过 AI 做出一些感觉像魔法一样的事情。这段记忆形成了一个情感锚点,阻碍了理性的重新评估。“但你亲眼见过它的能力”成了反对关停的口号。
第二,AI 功能极其昂贵。 部署一个检索增 强生成(RAG)系统的成本可能高达 100 万美元。定制领域模型的成本在 500 万到 2000 万美元之间。当你投入了这么多资金,将其核销的心理代价是巨大的。团队会将持续投入合理化:“我们快成功了”、“我们只需要更好的训练数据”、“下一代模型会解决这个问题”。
第三,AI 的进步确实具有不可预测性。 传统软件的 Bug 要么修复了,要么没修复,但 AI 功能确实可能随着更好的数据、更优的提示词或新模型的发布而产生质变。这产生了一种“彩票心理”:也许下一次迭代就是突破点。偶尔确实会发生这种情况——这让这种模式变得更加危险,因为罕见的成功案例掩盖了数十次无声的失败。
解药是“预承诺机制”。在发布任何 AI 功能之前,请定义三件事:
- 关停指标:一个具体的、可衡量的阈值,低于该阈值你将关闭该功能。不是“如果用户不喜欢”,而是具体到“如果任务完成率在 90 天内没有提高 15%”。
- 关停时间线:一个强制性的决策日期,在投入多到触发沉没成本心理之前设定。为期两天的初始可行性评估可以防止长达六个月的试点泥潭。
- 关停决策权:一个既有权力又有动力做出决策的负责人。如果决策需要达成共识,那它永远不会发生——房间里总会有人主张再进行一次迭代。
体面的关停
妥善地关停一个 AI 功能本身就是一种技能。糟糕的关停会损害用户信任和团队士气。良好的关停则能产生学习杠杆。
诚实地宣布停止服务。 “这个功能没有提供我们预期的价值”比“我们停止这个项目是为了专注于其他优先事项”更令人信服。用户和内部团队能分辨出什么是战略重新分配,什么是失败的委婉说法。
在删除基础设施之前提取经验。每一个失败的 AI 功能都包含着关于用户“真实需求”与“自称需求”之间的信号。两者之间的差距往往是你最深刻的产品洞察。具体记录该功能错在哪里——不要含糊其辞(如“它不够准确”),要精确描述(如“它在处理涉及日期的多步推理任务时失败了,而这类任务占用户查询的 30%”)。
保留组件。一个失败的 AI 功能通常包含有价值的碎片——一个调优良好的检索流水线、一个干净的评估数据集、一个领域特定的提示词库——这些都可以加速下一次尝试。关停功能,但不要毁掉基础设施。
残酷的数学计算
以下是迫使你做出决定的计算公式:计算维护该 AI 功能的总成本:推理成本、持续提示词调优的工程时间、监控以及事件响应。将其与交付的可衡量价值进行比较。如果你无法用首席财务官(CFO)认可的语言(如成本节约、收入归因、可衡量的效率提升)来量化价值,那么你拥有的不是一个可行的功能,而是一个昂贵的实验。
Gartner 预测,到 2027 年底,超过 40% 的智能体 AI(Agentic AI)项目将被取消。这并不是 AI 技术的失败,而是那些本应在成本更低、教训更新鲜时就做出关停决策的团队,推迟了修正。
优秀的 AI 产品团队并不是那些从未关停功能的团队。而是那些关停快、学得透,并能以更清晰的视 野将投资转向下一次尝试的团队。在一个 88% 的成功试点从未进入生产阶段的领域,识别出“这行不通”的能力比构建一个令人惊叹的演示更值钱。
问题不在于你是否会面临关停的抉择,而在于你是否已经建立了一套组织机制,让你能在第三个月而不是第九个月做出决定。
- https://workos.com/blog/why-most-enterprise-ai-projects-fail-patterns-that-work
- https://www.cio.com/article/3555331/when-is-the-right-time-to-dump-an-ai-project.html
- https://www.digitalgenius.com/blog/the-hidden-cost-of-sticking-with-the-wrong-ai
- https://www.chat-data.com/blog/ai-chatbot-analytics-measuring-success-beyond-vanity-metrics
- https://www.consultingmag.com/2026/02/04/why-enterprise-ai-stalled-and-what-is-finally-changing-in-2026/
- https://itidoltechnologies.com/blog/saas-roadmaps-2026-prioritising-ai-features-without-breaking-product/
