跳到主要内容

模型 EOL 倒计时:将供应商 LLM 视为外部依赖项管理

· 阅读需 13 分钟
Tian Pan
Software Engineer

2026 年 1 月,OpenAI 仅提前两周通知便将若干 GPT 模型从 ChatGPT 中退役——而就在此前不久,其 CEO 刚刚在公开场合承诺在此次退役后会"提前充分通知"。对于那些已将工作流构建在这些模型之上的团队而言,这份公告无异于周五下午收到的一条页面报警。那一次 API 未受波及,但下一次未必如此。

你当前调用的每一个模型都有弃用日期。部分日期已列在供应商的文档页面上,另一些尚未宣布。操作层面的问题不是你的生产模型是否会被退役,而是你能否在问题发生前及时收到通知并从容应对,还是在用户开始遭遇故障后手忙脚乱地迁移。

这在软件工程中已是有解之题。库有 EOL 日期,操作系统有支持窗口期,业界数十年前就已围绕依赖项生命周期管理建立了工具、流程和文化规范。AI 工程尚未跟上,但底层模式完全相同:将模型版本视为你无法控制的外部依赖项,并据此构建系统。

季度弃用的跑步机

供应商模型弃用现已大致以季度为周期推进。仅 2024 年,Anthropic 就退役了 5—6 个独立模型版本,包括 Claude 1.x、Claude Instant 1.x 及若干 Sonnet 快照。OpenAI 的弃用页面列出了 2023 年以来数十个已退役的模型,通知期从 14 天(仅 ChatGPT 模型)到约 12 个月(旗舰 API 模型)不等。Google Vertex AI 的标准通知期目标为 6 个月,但对于平台上托管的第三方模型,最短仅给过 1 个月。

一个主要前沿模型从发布到退役的典型寿命为 12—18 个月。如果你的应用具有多个由 LLM 驱动的功能,那么任何时候都应预期至少有一项活跃的弃用迁移正在进行。三个功能时,这实际上成了持续状态。

各供应商的实际策略汇总如下:

  • OpenAI(API,GA 模型):最少 60 天通知;实际上,主要模型通常有 6—12 个月。
  • Anthropic:实际通知期 60—90 天;部分主要模型获得了 6 个月。
  • Azure OpenAI:GA 模型最少 60 天;预览版最少 30 天。
  • Google Vertex AI:标准 6 个月;预览模型更短。
  • ChatGPT UI(非 API):最低仅 14 天。

请注意,以上任何一个窗口期都不足以让一个毫无准备的工程团队在正常迭代节奏下完成高质量迁移。那些能无惊无险处理弃用的团队,是在需要之前就建好了迁移基础设施。

"冻结版本"的幻觉

在进入处置手册之前,有必要先正视一个危险假设:锁定带日期戳的快照版本——gpt-4o-2024-08-06claude-3-5-sonnet-20241022——能为你提供稳定的行为保证。

并非总是如此。

2023 年,斯坦福大学和加州大学伯克利分校的研究人员记录到,GPT-4 在质数识别上的准确率从当年 3 月的 84% 骤降至 6 月的 51%,降幅达 33 个百分点——而 API 版本号始终未变。相同的模型标识符,不同的行为。思维链提示的遵从率发生了变化,代码生成错误增多,OpenAI 起初坚称什么都没有改变。

2025 年初,开发者记录到 gpt-4o-2024-08-06 出现行为变化:JSON 解析失败和分类器崩溃,均未抛出 API 错误。应用表面上正常运行,实则静默出错。

在没有版本号变更的情况下发生行为漂移的情况很罕见,但确实存在。其含义是:你的回归测试套件需要持续对线上端点运行,而不仅仅在迁移时运行,以便捕获静默变更。这与你对一个无法控制的第三方 API 进行监控的方式完全一致。

模型清单:管理之前,先看清楚

任何弃用管理系统的基础,都是一份系统所调用的每个模型的最新清单。这应当是一个一等公民制品,而不是在弃用通知到来时才去代码库里用 grep 重建。

每条记录需包含:

  • 精确的模型标识符(锁定的快照版本,而非别名)
  • 哪些服务和功能在使用它
  • 已公告的 EOL 日期(查看供应商弃用页面)
  • 推荐的替代方案

llm-model-deprecation Python 库提供了一个 scan 命令,可遍历代码库查找硬编码的模型字符串,并对照其每周刷新的弃用注册表进行标记。在 CI 中运行此命令,可确保已弃用的模型名称无法通过代码审查。deprecations.info 提供 RSS/JSON 信息流,汇总了来自 OpenAI、Anthropic、Google AI、Vertex AI、AWS Bedrock 等平台的退役公告——将其接入 Slack 频道,可在邮件通知到来之前就获得预警。

一个操作细节:生产环境中绝对不要使用模型别名版本。gpt-4.1(无日期后缀)会静默解析为 OpenAI 指定的最新版本。gemini-1.5-pro(无版本后缀)在 gemini-1.5-pro-002 发布当天就开始接收该版本的流量。别名相当于供应商版本的 npm ^ 操作符——你在接受未经测试的自动升级。请锁定带日期戳的快照版本。

行为回归测试套件的真实面貌

当弃用通知到来时,迁移决策并不是"新模型在 MMLU 上得分是否更高?",而是"新模型对于我的应用实际执行的任务,是否能产生可接受的输出?"这是两个不同的问题,答案也不同,而且只有你能回答其中一个。

基准测试陷阱是真实存在的。依赖供应商提供的新模型基准测试分数的团队发现,旧模型在其特定任务上的表现明显更优——包括客户反馈摘要、领域特定分类、具有 10 步以上的指令遵循链。基准测试衡量的是基准测试所衡量的内容,你的回归测试套件衡量的是你的应用实际做的事情。

从有据可查的迁移经验中得出的原则是:50—100 个精心挑选的黄金样本,胜过数千个合成样本。这些黄金样本应来源于:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates