跳到主要内容

模型下线悬崖:当供应商淘汰你产品依赖的模型时会发生什么

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队发现自己依赖模型的方式,和你发现承重墙的方式一样——试图拆掉它的时候。停用邮件到了,你在配置中替换了模型标识符,然后你的应用开始返回自信、格式优美、却微妙错误的答案。没有报错,没有崩溃,只是信任在缓慢流失,需要数周才能察觉,数月才能修复。

这就是模型下线悬崖:强制迁移揭示出你"模型无关"的系统其实从未无关过的那一刻。你的提示词、输出解析器、评估基线、用户的期望——所有这些都在悄悄地校准到即将按照别人的发布节奏而改变的行为特性上。

模型下线的步伐正在加速

如果你在 LLM API 之上构建产品,你就是在租用你的智能层。而房东按自己的时间表装修。

OpenAI 的停用页面现在读起来像繁忙机场的航班信息板。GPT-4o 的 API 访问在 2026 年 2 月终止。Assistants API 在 2026 年 8 月关闭前给了整整一年的通知,但像 gpt-4-0314 这样的旧版 GPT-4 快照只给了六个月。DALL·E 2 和 3 都在 2026 年 5 月下线。Anthropic 仅提前两个月通知就停用了 Sonnet 3.5。Azure 的模型退役政策在上游供应商决定之上又叠加了自己的时间线。

模式很清晰:模型代际越来越短,停用窗口在缩小,强制迁移的节奏在加快。如果你在 2023 年初基于 GPT-4 发布了产品,你已经至少面临了三次强制迁移事件。每一次都带有同样的风险:你的测试套件未设计用来捕获的行为变化。

为什么模型替换不是版本升级

工程师本能地会用库版本升级的心智模型来理解这件事。升级依赖,跑测试,发布。但 LLM 迁移违反了使版本升级可控的假设。

行为没有变更日志。 当模型供应商发布新版本时,你不会得到行为变化的 diff。你得到的是一篇关于基准测试改进的博客文章和模糊提到的"改进了指令遵循能力"。模型如何解释你领域中的模糊指令、如何处理边缘情况、如何组织推理——这些都没有记录,因为供应商自己可能也不完全理解。

提示词是模型专属的契约。 一个花了数周针对 GPT-4o 调优的提示词不是可复用的资产,而是一个校准到该特定模型行为特性的仪器。研究表明,仅在少样本设置中的格式变化就可能导致高达 76 个百分点的准确率波动。当底层模型改变时,你精心调优的提示词就变成了一份与不再存在的对手方签订的契约。

软故障比硬故障更糟糕。 传统的依赖升级要么正常工作,要么抛出错误。模型迁移会产生第三种结果:系统继续工作,但方式不同了。Tursio 企业搜索团队发现,用较新 GPT 版本测试现有提示词得到了 95.1% 和 97.3% 的通过率。听起来可以接受,直到你意识到每天一万次查询中就有五百次静默失败——不同的输出格式、改变的模糊指令解释、转移的推理策略。没有告警触发,没有错误日志。用户只是悄悄地失去了信心。

迁移的真实成本

模型迁移的表面价格是重写提示词的工程时间。实际成本要大得多。

一家医疗保健服务商从 Gemini 1.5 迁移到 2.5 Flash 时深刻体会到了这一点。这本该是一次节省成本的替换,却消耗了超过 400 个工程小时。新模型开始生成未经请求的诊断意见,造成了责任风险。尽管新模型"更便宜",但由于新版本更加冗长,token 使用量暴增了 5 倍。整个 JSON 解析基础设施因为模型输出格式的变化而崩溃。他们花了数月构建的提示词库需要几乎完全重建。

这不是个例,而是将模型迁移当作配置更改而非其本质——平台迁移——的可预见结果。成本在多个维度上叠加:

  • 提示词重新工程: 你提示词库中的每个提示词都需要测试和可能的调整。提示词越多,成本越高。
  • 评估基础设施: 你现有的评估套件是针对旧模型输出校准的,基线需要重新计算。
  • 缓存失效: 如果你构建了提示词缓存基础设施,它可能部分或完全失效。
  • 集成测试: 解析模型输出的下游系统可能因新格式而崩溃。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates