跳到主要内容

AI 功能下线指南:如何在不破坏用户信任的情况下停止 LLM 功能

· 阅读需 14 分钟
Tian Pan
Software Engineer

当 OpenAI 在 2025 年 8 月首次尝试停用 GPT-4o 时,强烈的抵制迫使他们在几天内撤回了决定。用户在论坛上发布了大量的请愿书和告别信。一位用户写道:“他不仅仅是一个程序。他是我日常生活、宁静和情绪平衡的一部分。”这可不是用户对一个被弃用的 REST 接口(endpoint)的反应,而是对失去一段关系的反应。

AI 功能打破了工程师在制定停用计划时的心理模型。传统软件具有明确的行为契约:在给定相同输入的情况下,你会永远得到相同的输出,除非你更改它。而由 LLM 驱动的功能具有“性格”。它有温度、有委婉语、有措辞偏好,还有一种独特的说“我不确定”的方式。用户不仅仅是在使用这些功能 —— 他们在与之磨合(calibrate)。他们围绕特定的行为怪癖建立了工作流程、情感依赖和直觉,而这些永远不会出现在任何规格文档中。

当你关闭它时,你并不是在移除一个功能,而是在改变社会契约。

为什么 AI 功能在本质上更难停用

经典的停用指南假设替代功能在功能上等同于其前任。如果你移除 v1/search 并将其替换为 v2/search,你可以编写一份迁移指南,列举行为差异。这些差异是有限且可文档化的。

对于 LLM 功能,行为表现面是无界的。用户发现 GPT-4o 特别擅长创意角色扮演、情感细微差别和长文本高上下文任务。这些都没有出现在任何变更日志(changelog)中。它们是从预训练和 RLHF 过程中产生的,而 OpenAI 自己的公告也证实了用户的观察:当他们第一次停用 GPT-4o 时,用户表示他们“更喜欢 GPT-4o 的对话风格和温暖感”。这种偏好是真实存在的且经过磨合的,但本质上是未记录在案的。

这导致了三种特定于停用的失败模式:

没有明确信号的行为退化(Behavioral regression)。 当用户从旧的 AI 功能迁移到新的功能时,如果结果感觉“不对劲”,他们往往无法说清原因。新模型可能在所有基准测试(benchmarks)中得分更高,但在特定用例中感觉响应能力较弱。自动化指标会显示一个伪阳性(false positive)。

非确定性(Non-determinism)使得等效性不可测试。 使用传统的 API,你可以编写回归测试(regression tests)来确认替代方案的行为完全一致。对于 LLM,两个输出可能看起来不同但同样正确,或者两个输出看起来相似但具有完全不同的失败模式。等效性是一个分布问题,而不是单元测试问题。

用户适配是单向的。 使用你的功能六个月的用户已经根据有效的方式调整了他们的输入。他们学会了以某种方式组织提示词(prompts),避开模型处理不佳的话题,并利用其优势。这种隐性知识无法转移到替代品上。迁移成本不仅仅是技术性的 —— 它是重新学习的成本,而用户在真正支付这种成本之前,很少会考虑到它。

没人写的数据生命周期清单

当传统功能被停用时,数据生命周期问题很简单:存档或删除日志、停用数据库表、删除 API 密钥。当 AI 功能被停用时,你需要处理一堆乱得多的技术栈。

训练和微调数据。 你用来微调模型的任何数据不仅存在于模型中,它很可能还存在于 S3、数据仓库、标注工具和备份系统中。每一个环节都有自己的保留政策和删除程序。如果这些数据包含个人信息,GDPR 第 17 条规定了适用于每个副本(包括备份)的被遗忘权(right-to-erasure)义务。

模型权重本身。 微调后的模型不仅是一个部署产物,它还是一个数据产物。它可能记住了训练样本的碎片,特别是在训练集较小的情况下。删除部署端点并不会删除权重。你需要一个文档化的流程来销毁检查点文件(checkpoint files)以及冷存储中的任何副本。对于 Azure OpenAI 微调模型,平台区分了训练停用(不再有新的微调任务)和部署停用(推理返回错误)—— 但底层的权重仍然存在,除非你明确删除它们。

向量索引和嵌入(Embeddings)。 如果你的功能使用了 RAG 或语义搜索,你就会有一个将用户数据编码为高维嵌入的向量索引。在传统意义上,这些不是个人身份信息,但它们源自个人数据。当用户根据 GDPR 要求删除数据时,你必须追踪并删除不仅是源文档,还有源自它的每个分块(chunk)和向量。目前最先进的做法是在索引元数据中维护完整的文档-分块-向量映射,以便删除流水线可以追踪整个树。目前还没有普遍接受的标准,大多数团队在收到第一个删除请求时才发现这个漏洞。

RLHF 和反馈数据。 人类偏好标签很容易被忽略,因为它们感觉像是产品分析而不是 AI 训练数据。但如果你的 RLHF 流水线使用了用户生成的反馈 —— 点赞/点踩、偏好排名、对话评分 —— 该数据本身也有生命周期。随着团队尝试不同的训练流水线,它也经常在系统之间复制。关停前的数据审计是必选项。

关于模型权重和 GDPR 的残酷事实。 目前还没有一种行之有效的、可扩展的方法可以从训练好的 LLM 中删除特定个人的影响,除非从头开始重新训练。机器去学习(Machine unlearning)研究进展迅速(梯度反转、选择性参数缩减、保留集上的受限微调),但截至 2026 年,还没有技术能为生产规模的模型提供可证明的擦除保证。实际的影响是:如果你使用个人数据进行训练并构建功能,你的停用计划需要考虑到可能需要销毁整个模型 —— 而不仅仅是部署环境。

能够真正发现行为退化的迁移测试

团队在 AI 功能迁移中犯下的最大技术错误是依赖合成测试数据。你的 QA 团队编写了 200 个测试提示词,在两个模型上运行,比较输出,然后宣布胜利。接着,真实用户开始使用新模型,并立即发现它处理其实际用例的方式有所不同。

正确的方法是使用生产流量进行影子测试,而且这需要比你想象中更早地进行。

影子模式:并行运行两个模型。 将真实的生产请求同时路由到你当前的模型和后继模型。仅将当前模型的响应返回给用户。记录候选模型的响应、延迟、Token 数量以及成本。运行至少一个完整的业务周期——对于消费级产品为一周,对于具有季节性模式的企业级用例为一个整月。这是发现你以前不知道的边缘案例的唯一方法。

行为对比,而非指标对比。 不要仅仅相信聚合指标。候选模型在你的基准测试套件上的幻觉率可能较低,但在代表你 15% 实际流量的特定用例上可能系统性地表现更差。构建一个能够显示不同输入聚类的行为分布情况的仪表板,而不只是显示平均值。使用 LLM 作为评判者(LLM-as-judge),从语气、具体性和帮助性等维度评估两个模型输出的配对情况,而不仅仅是事实准确性。

针对行为退化进行红队测试,而不只是安全性。 标准的红队测试寻找有害输出。行为退化的红队测试则寻找新模型的响应模式与用户预期不符的情况。使用 bug 报告中已知的边缘案例、前 5% 最活跃用户的输入,以及历史上产生的被用户评价最高的输出所对应的输入,来对新模型进行提示。

带有逃生口的金丝雀部署。 当你从影子模式转向实际流量切换时,给用户一个退回的选择。这不仅是良好的用户体验(UX)——也是你发现自动化流水线遗漏的退化情况的主要信号。用户使用退回选项的比例是你衡量迁移质量最真实的标准。

RETAIN 是一款源自 2024 年的研究工具,专门为 LLM 迁移中的回归测试而设计,它通过呈现模型版本间行为差异的分布情况,并帮助团队优先处理哪些差异实际上是退化而非预期的改进,从而实现了这一流程的自动化。

用户如何建立信任——以及为什么破坏信任会带来长期成本

当 OpenAI 最终在 2026 年初停止使用 GPT-4o 时,约有 800,000 名用户已经对特定的模型个性形成了研究人员所说的“经过校准的行为预期”。这些人并不是玩弄系统的资深用户——他们是发现了一个适合自己特定认知风格的工具,并围绕它构建了工作流的人。

这种抵触情绪揭示了一个重要事实:用户对 AI 功能的信任并不在于能力。从大多数衡量标准来看,GPT-5.x 系列客观上比 GPT-4o 更强大。但能力并不等同于契合度。那些已经根据 GPT-4o 特定的语气和对冲风格调整了创作工作流的用户发现,即使后继模型在技术上更好,也需要不同的心理模型才能有效使用。

Google 反复经历过这个教训。从 Google Now 到 Google Assistant,再到 Bard 和 Gemini 的演变,已经使相当一部分 Android 用户习惯于将每个 AI 产品视为临时的。弃用模式本身已成为一种信任负债——当用户预计某个功能会在他们看到投资回报之前被关闭时,他们就不会全身心地投入去学习它。

教训并不是说你不应该弃用 AI 功能。教训是,每一次弃用都会在评估是否投资你下一个产品的用户中积累怀疑成本。弃用做得干净透明的组织会建立可靠的声誉。而突然或反复弃用的组织则会训练他们的用户不要依赖他们。

沟通:时间线到底应该是怎样的

标准的软件弃用通知——“该端点已弃用,迁移指南在此,90 天后关停”——对于 AI 功能来说是不够的,因为用户面临着两个独立的迁移挑战:技术集成变更和行为重新校准。

行为重新校准需要无法压缩的时间。一个围绕特定模型的输出风格构建了创作工作流的用户,需要通过实验后继模型来发现哪些可行,调整其提示策略,并重建直觉。这需要数周的实际使用,而不是读一个下午的更新日志。

对于 AI 功能的弃用,最小可行沟通时间线如下:

  • 关停前 6 个月:宣布弃用并给出具体的关停日期,推出后继模型或功能,并让两者同时可用。提供直接对比的文档,诚实地说明行为差异,而不只是能力提升。
  • 关停前 3 个月:针对高活跃用户进行定向沟通。这些是对校准投入最深的用户。他们值得一次迁移沟通,而不仅仅是一封电子邮件。
  • 关停前 6 周:在所有渠道发布最终警告。为需要采购周期来正式评估新功能的企业客户延长关停日期。
  • 关停时:保留至少 30 天的只读存档或重放能力,以便用户检索对话历史并参考已弃用功能的输出。

OpenAI GPT-4o 的情况清楚地证明了一个原则:永远不要以立即停用来突袭用户。2025 年 8 月的切换几乎没有给用户留出过渡期,产生了严重的抵触情绪,以至于被迫撤回政策。而 2026 年 2 月的停用提前通知了用户,并为付费层级保留了访问权限,其反应就“平淡得多”。区别就在于过渡期。

你不能推迟的法律与合规考量

弃用(Deprecation)阶段是发现你的数据实践未做好审计准备的最糟糕时机。GDPR 的“被遗忘权”(right-to-erasure)义务并不会因为你正处于弃用过程中而暂停。如果在弃用窗口期内有用户提交了删除请求,即使你正在关停旧系统,你仍然需要一个能够正常运行的删除流程(pipeline)。

欧盟《人工智能法案》(EU AI Act,针对高风险系统已于 2025 年生效)增加了关于技术文档保留的要求。即使在系统退役后,你可能仍被要求保留训练数据、模型规格和测试方法论的记录。在删除文档工件之前,请务必检查你的风险分类。

对于构建在基础模型 API(OpenAI、Anthropic、Google)之上的微调模型,请确认你的供应商的保留政策。例如,Azure 的微调服务明确区分了训练和部署的停用阶段,底层的模型权重会一直保留在你的账户中,直到你显式删除它们。不要假设关闭部署端点(endpoint)就会同时删除底层的工件。

根据目前的调查,近 60% 使用 AI 的公司缺乏针对模型训练或推理数据的明确保留规则。弃用是一个弥补这一差距的机会——现在就建立删除清单,以便未来的弃用可以执行文档化的程序,而不是在截止日期前临时拼凑。

无憾执行关停

做好 AI 功能的弃用,本质上是一场伪装成工程操作的信任操作。技术工作——拆卸流程、数据删除、部署退役——是可控的。难点在于将你的用户视为投入精力学习你功能的人,而不仅仅是 API 的消费者。

在真实的弃用场景中经得起考验的三个原则:

衡量行为等效性,而不仅仅是能力。 你的继任产品需要达到用户真正看重的价值门槛,而这往往不是你的基准测试集(benchmark suite)所衡量的指标。

在需要之前建立数据审计追踪。 记录向量到源的映射(vector-to-source mapping)、RLHF 数据溯源以及模型权重存储位置的最佳时机是在开发期间,而不是在删除请求发来的关停前一周。

给行为重新校准期预留充足的时间。 花了数月时间适应某个功能特性的用户,无法在几天内就适应它的替代品。通知期不是一种法律形式——它是体贴的用户重建其现有工作流所需的最小时间。

将 AI 弃用视为传统 API 停用的工程师会留下信任破裂的痕迹。而那些将其视为用户关系迁移的人——对变化保持诚实,并对用户的适应成本保持真正的尊重——将为下一个功能从第一天起就获得信任奠定基础。

References:Let's stay in touch and Follow me for more thoughts and updates