跳到主要内容

AI功能下线手册:如何在不损害信任的前提下淘汰表现不佳的AI

· 阅读需 11 分钟
Tian Pan
Software Engineer

过去三年,工程团队上线的AI功能数量超过了此前十年的总和。但他们几乎没有下线过任何一个。德勤的研究发现,2025年有42%的公司放弃了至少一个AI项目——相比前一年的17%大幅上升——每个被废弃项目的平均沉没成本高达720万美元。然而,那些留在生产环境中的功能往往比被砍掉的更具破坏性:它们缓慢侵蚀用户信任,积累每月复利的技术债,并消耗本可用于有效工作的工程资源。

这种不对称是结构性的。AI功能上线会带来公告、利益相关方的兴奋和团队荣誉。而退场则被视为失败的承认。因此,糟糕的功能不断积累。解决之道不是意志力,而是一套决策框架——让退场成为一种正常、可预期的工程结果,而非组织危机。

为什么团队无法拔掉插头

在介绍框架之前,有必要理解瘫痪的具体机制。

第一是沉没成本陷阱。AI基础设施成本高昂且显而易见:数据管道、模型集成、评估工具、监控系统。当功能表现不佳时,人们倾向于用持续投入来为已有投资辩护,而不是认识到过去的成本无论接下来怎么做都无法收回。

第二是"模型会改进"的推脱。AI功能天然自带一套为表现不佳辩护的理由:模型会变好、更多数据会有帮助、下一个LLM版本会修复边缘情况。这使得继续比停止在结构上更容易。与要么修好要么不修的bug不同,AI功能质量存在于一个连续谱上,总有一个貌似合理的理由期待改进。

第三是身份认同。工程师对已上线的功能会产生情感依附。"我们应该砍掉这个吗?"这个问题被听成了"构建这个是个错误吗?"——但这并不是同一个问题。

理解这些机制很重要,因为决策框架必须将它们纳入考量,而不仅仅是技术证据。

诊断:不可减少误差 vs. 可修复失败率

核心技术问题是:表现不佳代表的是持续投入可以修复的问题,还是任务本身施加的上限?

机器学习理论将两者区分为可减少误差和不可减少误差。可减少误差来自训练数据不足、模型架构不优、分布偏移或特征缺失——这些原则上都可以解决。不可减少误差是任务本身的固有噪声:没有模型能消解的歧义,没有额外数据能消除的变异性。

实际诊断涉及三个问题:

误差是否接近该任务的人类水平表现? 如果人类执行同一任务达到90%准确率,而模型达到88%,进一步投入将产生递减回报。如果模型达到60%而人类达到90%,差距可能是可减少的——但问题变成了减少它是否值得成本。

用新数据重训练是否恢复了性能? 如果模型质量随时间下降,重训练后恢复到基线,问题是数据漂移——这是一个维护问题,而非退场触发点。如果重训练没有帮助,任务已经变化超出了模型的范围,或者范围从一开始就是错误的。

有多少比例的错误属于"无明确解决方案"类别? 系统性错误分析意味着对所有失败模式进行分类,并将每种标记为:用已知工程工作量可减少、理论上可减少但需要未知工作量、或结构上无法修复。大多数错误落入第三类的功能,无论绝对错误率如何,都是退场候选者。

大约47%的AI项目失败源于组织准备不足,而非模型限制——比如没有明确的业务负责人、不一致的成功标准,或者没有考虑AI错误的工作流设计。这些是伪装成模型问题的任务范围问题。重训练无法修复它们。

终止/修复决策矩阵

完成错误分析后,退场决策映射到一个2×2矩阵:

可减少误差 + 高业务价值:投入。构建评估基础设施,运行重训练周期,解决数据质量问题。这是持续投入有理由的罕见情况。

可减少误差 + 低业务价值:退场。功能可以修复,但修复它不值得成本。这是一个资源分配决策。

不可减少误差 + 高业务价值:重新定义任务范围。按照当前规格,功能无法成功,但可能存在一个更窄的版本可以成功。一个无法处理全范围口音和方言的语音点餐系统,也许可以作为针对简单、可预期查询的菜单导航辅助工具而成功。将任务重新定义为模型实际能做的——但要诚实地评估用户是否会觉得更窄的版本有用。

不可减少误差 + 低业务价值:立即退场。

只有当错误分析是诚实的时,矩阵才有用。团队始终高估可减少误差的比例,因为可减少性为继续提供了理由。

利益相关方沟通:克服沉没成本偏见

技术上的退场决定通常比利益相关方沟通更容易。以下几种模式行之有效:

明确区分过去与未来。 在每次关于继续的对话中,大声说出:"我们已经花了X元。无论我们做什么决定,这钱都回不来了。问题是我们接下来投入什么。"这种重新定位很简单,但往往需要明确说出,尤其是对那些衡量AI预算的高管。

在上线前设定终止标准。 让退场决定站得住脚的最可靠方法是提前将其记录在案。一个未能达到预先约定标准的功能是在执行计划,而非承认失败。跳过这一步的团队,会让每一次退场决定都变成政治谈判,而不是工程结果。

将停止重新定义为对证据的正确响应。 最初的错误是在没有充分验证的情况下构建——AI开发的原型文化积极不鼓励前期成功标准,因为迭代被认为是廉价的。停止是严谨团队对证据的响应方式。将其定位为"我们运行了一个实验并有了结果",而非"我们尝试了并失败了"。

在重大继续决策之前引入独立评估者。 不依附于原始构建的人判断力更好。当构建功能的团队也是评估功能的团队时,这一点尤为重要。

IBM Watson肿瘤学是昂贵的反例。IBM在收购上投入超过50亿美元,并花费数年时间为Watson Health辩护——尽管有证据表明其建议在临床上不安全——最终以据报道40亿美元的亏损出售了该部门。该组织没有任何机制来区分"我们投入了很多"和"这在起效"。

应触发退场审查的信号

没有明确的阈值,退场审查就不会发生。以下数字提供了根据行业模式校准的起点:

  • 上线90天后人工升级/覆盖率超过25%。 如果用户或支持人员以这种频率绕过AI功能,说明功能在增加摩擦而非减少摩擦。
  • 活跃使用率连续三个月环比下降,且无法用季节性解释。
  • 支持工单中按名称提及该功能。 用户只有在某件事持续失败时才会这样做——否则他们不会费心。
  • 核心用例任务完成率低于90%。 次要用例可以容忍更多错误;核心用例不行。
  • A/B测试显示在足够的运行时间后(LLM功能通常至少4-6周),与非AI基线相比没有统计上的显著改进。
  • 多次重训练周期,收益递减。 如果每次连续的重训练周期恢复的性能差距越来越少,你正在接近上限。

这些是审查触发点,而非自动终止决定。当多个信号同时出现时,退场几乎总是正确的选择。

坚守的技术债成本

团队低估维护表现不佳功能成本的一个原因是,成本是分散且不可见的。它不会出现在单一的行项目中。

Sculley等人的"机器学习系统中的隐藏技术债"论文确立了这一模式:ML系统承担标准软件维护成本加上ML特有的债务。表现不佳的功能积累了两者中最糟糕的部分。每种失败模式都得到一个补丁。每个补丁都创建一个变通方法。变通方法添加特殊情况处理。系统变得更难推理、测试,最终更难退场。

对于生成式AI,债务以独特的方式复利增长:提示随着团队添加指令来处理每种新的失败模式而通过堆积增长,最终积累相互矛盾的指令,使行为变得不可预测;模型版本固定在基础设施中传播;当没有针对生成式输出的自动化测试套件存在时,评估债务就会积累。

2024年Forrester的一项调查发现,有未解决AI技术债的团队在救火上多花费30%的工程时间。对于表现不佳的功能,救火永不结束——因为根本原因不是可修复的bug,而是功能被设计为做的事情与它实际能做的事情之间的架构不匹配。

实际计算:如果年度维护成本(重训练、监控、值班负担、补丁)超过产生的年度用户价值,立即退场。大多数团队从未明确做这个计算,这就是为什么功能会留下来。

优雅废弃:在过渡中保持用户信任

废弃的机制对用户信任的影响方式让团队措手不及。

在公告之前构建迁移工具。 这是将API废弃实践应用于AI功能的教训:在没有准备好迁移路径的情况下宣布日落,用户将其解读为被抛弃。公告本身成为一个信任事件。构建导出工具、替代工作流、回退路径——然后再公告。

使用渐进降级而非硬性截止。 将功能从主路径移至增强选项,再移至选择加入,最后移至日落。用户在数周内逐渐习惯不依赖它,而不是遭遇突然的缺席。麦当劳AI得来速关闭是在公关压力下发生的,因为该功能没有降级模式——它要么开要么关,每次失败对顾客都是可见的。

在风险期内给用户一种选择退出的方式。 让用户控制他们不信任的AI功能,反直觉地增加了对组织的信任,即使被控制的功能很糟糕。它表明组织尊重用户的自主权。

企业客户需要比你想象的更长的时间线。 企业产品应该规划至少3-6个月的最低迁移窗口,跨渠道有5-7个沟通接触点。假设大多数用户不会看到第一次通知。

内置事后分析。 软件工程对中断有强大的无指责事后分析文化,但对功能退场几乎没有等效的文化。采用这种纪律——记录回顾中可见的信号、组织因素是什么、如何更早设定决策标准——将一次性失败转化为组织学习。退场做得好的团队,最终上线的需要退场的功能会越来越少。

让退场成为一流的工程结果

目标不是建立更擅长终止AI功能的团队——而是建立那些将退场视为可预期、低戏剧性工程结果而非组织危机的团队。

这需要三个结构性变化:在上线前定义成功标准;自动浮现终止信号的监控基础设施,而非需要手动调查;以及与应用于中断一样一致地应用于功能退场的事后分析纪律。

Gartner预测,到2027年底,40%的智能体AI项目将被取消。那些处理这些取消做得好的团队——用户信任完好无损、技术债已避免、组织学习已捕获——将在随后的AI投资浪潮中具有可衡量的优势。做得好的退场是一种竞争能力。

Let's stay in touch and Follow me for more thoughts and updates