AI 功能下线决策：当指标显示成功但用户却不买账时

2026年4月10日 · 阅读需 11 分钟

Software Engineer

2025 年，42% 的公司放弃了大部分 AI 计划，高于一年前的 17%。令人震惊的不是放弃率，而是延迟。这些项目中的大多数在最终被叫停之前，已经处于各种“快准备好了”的阶段长达 6 到 12 个月。演示是成功的。指标看起来合情合理。团队投入了大量精力。于是，这个功能在证据早已指向关停之后，依然继续徘徊，消耗着预算和信誉。

AI 领域最难的产品决策不是构建什么，而是何时停止构建一个技术上可行但实际上无用的东西。

演示陷阱：为什么 AI 功能总能获得更长的宽限期

传统软件功能的失败方式很明显。按钮失效、页面崩溃、用户投诉。AI 功能的失败模式则要隐蔽得多：它们在演示和受控环境中表现惊人，但在现实条件下却逐渐显露出不足。

一个呼叫中心团队部署了一个 AI 摘要工具，其评估集的准确率达到了 90% 以上。领导层非常振奋。六个月后，主管们在每次通话后仍然手动编写笔记。该工具在技术上是可行的——准确率指标是真实的——但那 10% 的错误率偏偏出现在主管们最关心的案例上：投诉升级的客户、合规敏感的互动、复杂的多方通话。指标显示成功，行为却显示失败。

这种模式在每一类 AI 功能中都会重复。LLM 驱动的搜索返回了看似合理的结果，却漏掉了用户需要的特定文档。AI 助手生成的草稿初看可用，但修改它们所需的时间比从零开始写还要长。自动化分类流水线在 80% 本就简单的案例中达到了 95% 的准确率。

演示陷阱之所以有效，是因为 AI 功能产生的输出看起来很聪明。一个坏掉的按钮什么也产出不了。而一个平庸的 AI 功能会产生一些东西——这些东西足以维持希望，却又差到足以侵蚀信任。

撒谎的指标

最危险的 AI 功能是那些拥有健康仪表盘的功能。团队跟踪采用率、Prompt 数量、响应延迟和用户满意度评分。全都是绿色的。但功能仍然在失败。

原因如下：标准产品指标衡量的是参与度，而不是价值。它们回答了“用户是否在接触这个？”，但没有回答“这是否真的有帮助？”。对于 AI 功能来说，这种区别至关重要，因为用户参与 AI 的原因并不等同于成功：

好奇心爆发：用户在功能发布时尝试，在第一周产生令人印象深刻的采用数据，然后消失。一个产品团队追踪到其 AI 助手第一周留存率为 73%，但 30 天后的回访率仅为 12%。
义务性参与：企业用户采用这些功能是因为其经理要求这样做，产生了没有效用的使用量。仪表盘显示的是日活跃用户；现实却是为了合规的日活跃。
部分任务参与：用户将 AI 功能作为工作流中的一个步骤调用，然后默默地重新修改其输出。该功能因“完成交互”而获得功劳，而用户承担了实际的工作。

最重要的指标是团队很少监测的：独立于 AI 功能的任务完成率。如果用户在有无该功能的情况下，完成相同任务的速度和质量大致相同，那么该功能就是摆设——虽然存在，但不承重。

第二重要的指标是编辑距离 (Edit Distance)。当用户接受 AI 生成的输出时，他们在正式使用前修改了多少？如果编辑距离超过 40%，意味着用户实际上是在重写输出。你的 AI 功能不是在协助——它只是生成了一个初稿，作为激发你写出真正想要的内容的心理提示。

关停决策前的五个先行指标

当你在讨论是否关闭一个 AI 功能时，你已经迟了几个月。这些先行指标可以在决策变得显而易见前的三到六个月，可靠地预示关停：

1. 绕过系统的影子系统。 用户构建了完全绕过 AI 功能的并行工作流。电子表格、手动流程、人们分享答案而不是使用工具的 Slack 频道。用户不会抱怨摩擦——他们只是停止使用。如果你看到用户基数增长而使用量趋于平稳，请寻找影子系统。

2. 支持票据悖论。 关于 AI 功能的支持票据减少，不是因为它运行得更好了，而是因为用户已经放弃报告问题了。投诉量下降伴随着使用量持平或下降是红灯，而非绿灯。

3. 永远无法实现的“即将达成”里程碑。 团队承诺进入生产准备状态已经超过两个季度了。总会有“最后一个”边界案例、一个集成或一个模型升级，据说能弥补差距。如果“演示可用”与“生产可用”之间的差距在 90 天内没有明显缩小，那它可能永远不会缩小。

4. 超级用户的流失。 你最成熟的用户——那些拥有最深工作流和最高标准的客户——会最先停止使用该功能。他们是金丝雀。如果他们在普通用户还在尝试时就已经避开它，那么这个功能就有麻烦了。

5. 单位价值交付成本曲线趋于平缓。 你优化了 Prompt，改进了检索，调整了模型，并添加了护栏。每一次迭代都消耗了真实的工程时间，但对质量的提升越来越小。当你的改进曲线趋于渐近线时，你是在打一场错误的仗。

决策框架：关停、转型或坚持

并非每一个陷入困境的 AI 功能都应该被终结。有些功能需要缩减范围、更改目标用户，或是进行根本性的重新构思。以下是决策方法：

当抽象模型错误时，果断关停。 如果核心前提——“LLM 可以很好地完成这项任务并帮助用户”——在你的特定领域内是错误的，那么再多的提示词工程（Prompt Engineering）也无法解决问题。可以通过这样一个问题来测试：如果你拥有一个零幻觉、零延迟的完美模型，用户是否仍然需要这个工作流？如果答案是“可能不需要”，那么问题不在于 AI 的质量，而在于产品市场匹配度（PMF）。

当价值存在但交互方式错误时，进行转型。 有时用户需要 AI 的能力，但不需要你提供的呈现形式。没人读的 AI 生成摘要，如果变成原始文档中的 AI 高亮关键词，或许就能发挥作用。用户避而远之的聊天机器人，如果作为现有工具中的行内建议（Inline Suggestions），或许就能奏效。在关停之前，先思考：这种智能是否有价值，只是交互模型出了问题？

当你拥有针对部分用户产生价值的明确证据，并有可行路径来扩大该用户群时，选择坚持。 “有些用户很喜欢它”只有在你能够清晰说明这些用户是谁、他们为何成功、以及他们与那些不喜欢的用户之间到底有何区别时才有效。如果没有这种具体性，“有些用户很喜欢它”只是一种沉没成本的自我安慰。

为什么团队会多坚持六个月

沉没成本问题在 AI 功能上比传统软件更严重，原因有三点：

第一，演示（Demo）令人印象深刻。 房间里的每一个人——包括高管、投资者和董事会成员——都看到过 AI 做出一些感觉像魔法一样的事情。这段记忆形成了一个情感锚点，阻碍了理性的重新评估。“但你亲眼见过它的能力”成了反对关停的口号。

第二，AI 功能极其昂贵。 部署一个检索增强生成（RAG）系统的成本可能高达 100 万美元。定制领域模型的成本在 500 万到 2000 万美元之间。当你投入了这么多资金，将其核销的心理代价是巨大的。团队会将持续投入合理化：“我们快成功了”、“我们只需要更好的训练数据”、“下一代模型会解决这个问题”。

第三，AI 的进步确实具有不可预测性。 传统软件的 Bug 要么修复了，要么没修复，但 AI 功能确实可能随着更好的数据、更优的提示词或新模型的发布而产生质变。这产生了一种“彩票心理”：也许下一次迭代就是突破点。偶尔确实会发生这种情况——这让这种模式变得更加危险，因为罕见的成功案例掩盖了数十次无声的失败。

解药是“预承诺机制”。在发布任何 AI 功能之前，请定义三件事：

关停指标：一个具体的、可衡量的阈值，低于该阈值你将关闭该功能。不是“如果用户不喜欢”，而是具体到“如果任务完成率在 90 天内没有提高 15%”。
关停时间线：一个强制性的决策日期，在投入多到触发沉没成本心理之前设定。为期两天的初始可行性评估可以防止长达六个月的试点泥潭。
关停决策权：一个既有权力又有动力做出决策的负责人。如果决策需要达成共识，那它永远不会发生——房间里总会有人主张再进行一次迭代。

体面的关停

妥善地关停一个 AI 功能本身就是一种技能。糟糕的关停会损害用户信任和团队士气。良好的关停则能产生学习杠杆。

诚实地宣布停止服务。“这个功能没有提供我们预期的价值”比“我们停止这个项目是为了专注于其他优先事项”更令人信服。用户和内部团队能分辨出什么是战略重新分配，什么是失败的委婉说法。

在删除基础设施之前提取经验。每一个失败的 AI 功能都包含着关于用户“真实需求”与“自称需求”之间的信号。两者之间的差距往往是你最深刻的产品洞察。具体记录该功能错在哪里——不要含糊其辞（如“它不够准确”），要精确描述（如“它在处理涉及日期的多步推理任务时失败了，而这类任务占用户查询的 30%”）。

保留组件。一个失败的 AI 功能通常包含有价值的碎片——一个调优良好的检索流水线、一个干净的评估数据集、一个领域特定的提示词库——这些都可以加速下一次尝试。关停功能，但不要毁掉基础设施。

残酷的数学计算

以下是迫使你做出决定的计算公式：计算维护该 AI 功能的总成本：推理成本、持续提示词调优的工程时间、监控以及事件响应。将其与交付的可衡量价值进行比较。如果你无法用首席财务官（CFO）认可的语言（如成本节约、收入归因、可衡量的效率提升）来量化价值，那么你拥有的不是一个可行的功能，而是一个昂贵的实验。

Gartner 预测，到 2027 年底，超过 40% 的智能体 AI（Agentic AI）项目将被取消。这并不是 AI 技术的失败，而是那些本应在成本更低、教训更新鲜时就做出关停决策的团队，推迟了修正。

优秀的 AI 产品团队并不是那些从未关停功能的团队。而是那些关停快、学得透，并能以更清晰的视野将投资转向下一次尝试的团队。在一个 88% 的成功试点从未进入生产阶段的领域，识别出“这行不通”的能力比构建一个令人惊叹的演示更值钱。

问题不在于你是否会面临关停的抉择，而在于你是否已经建立了一套组织机制，让你能在第三个月而不是第九个月做出决定。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 功能下线决策：当指标显示成功但用户却不买账时

演示陷阱：为什么 AI 功能总能获得更长的宽限期

撒谎的指标

关停决策前的五个先行指标

决策框架：关停、转型或坚持

为什么团队会多坚持六个月

体面的关停

残酷的数学计算

Recommended Reading

关于 Tian Pan

演示陷阱：为什么 AI 功能总能获得更长的宽限期​

撒谎的指标​

关停决策前的五个先行指标​

决策框架：关停、转型或坚持​

为什么团队会多坚持六个月​

体面的关停​

残酷的数学计算​

Recommended Reading

关于 Tian Pan

演示陷阱：为什么 AI 功能总能获得更长的宽限期

撒谎的指标

关停决策前的五个先行指标

决策框架：关停、转型或坚持

为什么团队会多坚持六个月

体面的关停

残酷的数学计算