AI功能下线手册：如何在不损害信任的前提下淘汰表现不佳的AI

2026年4月20日 · 阅读需 11 分钟

Software Engineer

过去三年，工程团队上线的AI功能数量超过了此前十年的总和。但他们几乎没有下线过任何一个。德勤的研究发现，2025年有42%的公司放弃了至少一个AI项目——相比前一年的17%大幅上升——每个被废弃项目的平均沉没成本高达720万美元。然而，那些留在生产环境中的功能往往比被砍掉的更具破坏性：它们缓慢侵蚀用户信任，积累每月复利的技术债，并消耗本可用于有效工作的工程资源。

这种不对称是结构性的。AI功能上线会带来公告、利益相关方的兴奋和团队荣誉。而退场则被视为失败的承认。因此，糟糕的功能不断积累。解决之道不是意志力，而是一套决策框架——让退场成为一种正常、可预期的工程结果，而非组织危机。

为什么团队无法拔掉插头

在介绍框架之前，有必要理解瘫痪的具体机制。

第一是沉没成本陷阱。AI基础设施成本高昂且显而易见：数据管道、模型集成、评估工具、监控系统。当功能表现不佳时，人们倾向于用持续投入来为已有投资辩护，而不是认识到过去的成本无论接下来怎么做都无法收回。

第二是"模型会改进"的推脱。AI功能天然自带一套为表现不佳辩护的理由：模型会变好、更多数据会有帮助、下一个LLM版本会修复边缘情况。这使得继续比停止在结构上更容易。与要么修好要么不修的bug不同，AI功能质量存在于一个连续谱上，总有一个貌似合理的理由期待改进。

第三是身份认同。工程师对已上线的功能会产生情感依附。"我们应该砍掉这个吗？"这个问题被听成了"构建这个是个错误吗？"——但这并不是同一个问题。

理解这些机制很重要，因为决策框架必须将它们纳入考量，而不仅仅是技术证据。

诊断：不可减少误差 vs. 可修复失败率

核心技术问题是：表现不佳代表的是持续投入可以修复的问题，还是任务本身施加的上限？

机器学习理论将两者区分为可减少误差和不可减少误差。可减少误差来自训练数据不足、模型架构不优、分布偏移或特征缺失——这些原则上都可以解决。不可减少误差是任务本身的固有噪声：没有模型能消解的歧义，没有额外数据能消除的变异性。

实际诊断涉及三个问题：

误差是否接近该任务的人类水平表现？ 如果人类执行同一任务达到90%准确率，而模型达到88%，进一步投入将产生递减回报。如果模型达到60%而人类达到90%，差距可能是可减少的——但问题变成了减少它是否值得成本。

用新数据重训练是否恢复了性能？ 如果模型质量随时间下降，重训练后恢复到基线，问题是数据漂移——这是一个维护问题，而非退场触发点。如果重训练没有帮助，任务已经变化超出了模型的范围，或者范围从一开始就是错误的。

有多少比例的错误属于"无明确解决方案"类别？ 系统性错误分析意味着对所有失败模式进行分类，并将每种标记为：用已知工程工作量可减少、理论上可减少但需要未知工作量、或结构上无法修复。大多数错误落入第三类的功能，无论绝对错误率如何，都是退场候选者。

大约47%的AI项目失败源于组织准备不足，而非模型限制——比如没有明确的业务负责人、不一致的成功标准，或者没有考虑AI错误的工作流设计。这些是伪装成模型问题的任务范围问题。重训练无法修复它们。

终止/修复决策矩阵

完成错误分析后，退场决策映射到一个2×2矩阵：

可减少误差 + 高业务价值：投入。构建评估基础设施，运行重训练周期，解决数据质量问题。这是持续投入有理由的罕见情况。

可减少误差 + 低业务价值：退场。功能可以修复，但修复它不值得成本。这是一个资源分配决策。

不可减少误差 + 高业务价值：重新定义任务范围。按照当前规格，功能无法成功，但可能存在一个更窄的版本可以成功。一个无法处理全范围口音和方言的语音点餐系统，也许可以作为针对简单、可预期查询的菜单导航辅助工具而成功。将任务重新定义为模型实际能做的——但要诚实地评估用户是否会觉得更窄的版本有用。

不可减少误差 + 低业务价值：立即退场。

只有当错误分析是诚实的时，矩阵才有用。团队始终高估可减少误差的比例，因为可减少性为继续提供了理由。

利益相关方沟通：克服沉没成本偏见

技术上的退场决定通常比利益相关方沟通更容易。以下几种模式行之有效：

明确区分过去与未来。 在每次关于继续的对话中，大声说出："我们已经花了X元。无论我们做什么决定，这钱都回不来了。问题是我们接下来投入什么。"这种重新定位很简单，但往往需要明确说出，尤其是对那些衡量AI预算的高管。

在上线前设定终止标准。 让退场决定站得住脚的最可靠方法是提前将其记录在案。一个未能达到预先约定标准的功能是在执行计划，而非承认失败。跳过这一步的团队，会让每一次退场决定都变成政治谈判，而不是工程结果。

将停止重新定义为对证据的正确响应。 最初的错误是在没有充分验证的情况下构建——AI开发的原型文化积极不鼓励前期成功标准，因为迭代被认为是廉价的。停止是严谨团队对证据的响应方式。将其定位为"我们运行了一个实验并有了结果"，而非"我们尝试了并失败了"。

在重大继续决策之前引入独立评估者。 不依附于原始构建的人判断力更好。当构建功能的团队也是评估功能的团队时，这一点尤为重要。

IBM Watson肿瘤学是昂贵的反例。IBM在收购上投入超过50亿美元，并花费数年时间为Watson Health辩护——尽管有证据表明其建议在临床上不安全——最终以据报道40亿美元的亏损出售了该部门。该组织没有任何机制来区分"我们投入了很多"和"这在起效"。

应触发退场审查的信号

没有明确的阈值，退场审查就不会发生。以下数字提供了根据行业模式校准的起点：

上线90天后人工升级/覆盖率超过25%。 如果用户或支持人员以这种频率绕过AI功能，说明功能在增加摩擦而非减少摩擦。
活跃使用率连续三个月环比下降，且无法用季节性解释。
支持工单中按名称提及该功能。 用户只有在某件事持续失败时才会这样做——否则他们不会费心。
核心用例任务完成率低于90%。 次要用例可以容忍更多错误；核心用例不行。
A/B测试显示在足够的运行时间后（LLM功能通常至少4-6周），与非AI基线相比没有统计上的显著改进。
多次重训练周期，收益递减。 如果每次连续的重训练周期恢复的性能差距越来越少，你正在接近上限。

这些是审查触发点，而非自动终止决定。当多个信号同时出现时，退场几乎总是正确的选择。

坚守的技术债成本

团队低估维护表现不佳功能成本的一个原因是，成本是分散且不可见的。它不会出现在单一的行项目中。

Sculley等人的"机器学习系统中的隐藏技术债"论文确立了这一模式：ML系统承担标准软件维护成本加上ML特有的债务。表现不佳的功能积累了两者中最糟糕的部分。每种失败模式都得到一个补丁。每个补丁都创建一个变通方法。变通方法添加特殊情况处理。系统变得更难推理、测试，最终更难退场。

对于生成式AI，债务以独特的方式复利增长：提示随着团队添加指令来处理每种新的失败模式而通过堆积增长，最终积累相互矛盾的指令，使行为变得不可预测；模型版本固定在基础设施中传播；当没有针对生成式输出的自动化测试套件存在时，评估债务就会积累。

2024年Forrester的一项调查发现，有未解决AI技术债的团队在救火上多花费30%的工程时间。对于表现不佳的功能，救火永不结束——因为根本原因不是可修复的bug，而是功能被设计为做的事情与它实际能做的事情之间的架构不匹配。

实际计算：如果年度维护成本（重训练、监控、值班负担、补丁）超过产生的年度用户价值，立即退场。大多数团队从未明确做这个计算，这就是为什么功能会留下来。

优雅废弃：在过渡中保持用户信任

废弃的机制对用户信任的影响方式让团队措手不及。

在公告之前构建迁移工具。 这是将API废弃实践应用于AI功能的教训：在没有准备好迁移路径的情况下宣布日落，用户将其解读为被抛弃。公告本身成为一个信任事件。构建导出工具、替代工作流、回退路径——然后再公告。

使用渐进降级而非硬性截止。 将功能从主路径移至增强选项，再移至选择加入，最后移至日落。用户在数周内逐渐习惯不依赖它，而不是遭遇突然的缺席。麦当劳AI得来速关闭是在公关压力下发生的，因为该功能没有降级模式——它要么开要么关，每次失败对顾客都是可见的。

在风险期内给用户一种选择退出的方式。 让用户控制他们不信任的AI功能，反直觉地增加了对组织的信任，即使被控制的功能很糟糕。它表明组织尊重用户的自主权。

企业客户需要比你想象的更长的时间线。 企业产品应该规划至少3-6个月的最低迁移窗口，跨渠道有5-7个沟通接触点。假设大多数用户不会看到第一次通知。

内置事后分析。 软件工程对中断有强大的无指责事后分析文化，但对功能退场几乎没有等效的文化。采用这种纪律——记录回顾中可见的信号、组织因素是什么、如何更早设定决策标准——将一次性失败转化为组织学习。退场做得好的团队，最终上线的需要退场的功能会越来越少。

让退场成为一流的工程结果

目标不是建立更擅长终止AI功能的团队——而是建立那些将退场视为可预期、低戏剧性工程结果而非组织危机的团队。

这需要三个结构性变化：在上线前定义成功标准；自动浮现终止信号的监控基础设施，而非需要手动调查；以及与应用于中断一样一致地应用于功能退场的事后分析纪律。

Gartner预测，到2027年底，40%的智能体AI项目将被取消。那些处理这些取消做得好的团队——用户信任完好无损、技术债已避免、组织学习已捕获——将在随后的AI投资浪潮中具有可衡量的优势。做得好的退场是一种竞争能力。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI功能下线手册：如何在不损害信任的前提下淘汰表现不佳的AI

为什么团队无法拔掉插头

诊断：不可减少误差 vs. 可修复失败率

终止/修复决策矩阵

利益相关方沟通：克服沉没成本偏见

应触发退场审查的信号

坚守的技术债成本

优雅废弃：在过渡中保持用户信任

让退场成为一流的工程结果

Recommended Reading

关于 Tian Pan

为什么团队无法拔掉插头​

诊断：不可减少误差 vs. 可修复失败率​

终止/修复决策矩阵​

利益相关方沟通：克服沉没成本偏见​

应触发退场审查的信号​

坚守的技术债成本​

优雅废弃：在过渡中保持用户信任​

让退场成为一流的工程结果​

Recommended Reading

关于 Tian Pan

为什么团队无法拔掉插头

诊断：不可减少误差 vs. 可修复失败率

终止/修复决策矩阵

利益相关方沟通：克服沉没成本偏见

应触发退场审查的信号

坚守的技术债成本

优雅废弃：在过渡中保持用户信任

让退场成为一流的工程结果