跳到主要内容

“每周模型”路线图:当厂商承诺变成确定性依赖

· 阅读需 10 分钟
Tian Pan
Software Engineer

一位产品经理拉出了下个季度的路线图。其中三个功能被标记为“依赖下一代模型”。没人问如果下一代模型延期、比演示版本缩水 20%、或者发布的版本仅限你的客户没有资格使用的企业级层级,会发生什么。六个月后,这三种情况都发生了,团队现在正在针对实际发布的模型重建两个季度的架构——而这个模型的形态与他们当初计划的完全不同。

这就是“每周模型路线图”:将尚未发布的能力声明视为确定性的依赖。这是将 12 个月的计划变成 30 个月计划最可靠的方法之一。而在当时,这看起来几乎没有风险,因为每个厂商的演示都让人觉得大势所趋。计划的破坏是隐形的,直到延期产生复合影响。

这种模式出现在那些直到崩盘前一直看起来很健康的进度报告中。工程进度按时交付。Prompt 已经调优。评估(Evals)通过了。然后,路线图所围绕的模型要么没能面世,要么发布的等级低于预期,要么其特性破坏了预设的架构。路线图的失败并非因为团队没能履行承诺,而是因为团队承诺了别人的承诺,而那些承诺从始至终都只是愿景。

厂商路线图是营销,而非合同

当基础模型厂商说“下一个版本将处理长周期工具调用”时,工程团队听到的是一份 API 合同。而厂商自己的团队却不这么认为。前沿实验室的发布时间表受到安全评估、红队测试结果、算力可用性以及竞争态势的限制——而这些在六个月前都是无法预知的。这并不是厂商的失败,而是训练运行的本质,其结果经常连开发者自己都会感到意外。

只要留心,这种差距的证据随处可见。一家顶级实验室旗舰版本的 Q1 2026 截止日期已经错过了一个多季度,而且还在延期。另一家公司将其最受期待的 2026 模型仅发布给了约 40 个精选的企业合作伙伴,而不是公开版,因为内部安全评估发现某些能力对公众开放风险过大。第三家厂商在单个季度内对同一个“下一代”模型的变体进行了三次更名、重新划定范围并重新发布——每一个都是真实的产品,但每一个都破坏了基于先前版本构建的团队的架构假设。

任何基于“下一个模型会解决这个问题”而制定的路线图,有四分之三最终都会走向这三种结局:延期、受限或重新定标。这种可能性并非抽象的推测,而是最常见的常态。

“模型如约而至,但并非如你所愿”的三种形态

当一种能力最终落地时,更常见的失败不是它没出现,而是它以“错误的装束”出现。计划使用某种形态能力的团队得到了另一种形态,而他们为计划形态编写的代码现在需要重写。

规格不对 (Wrong envelope)。 演示展示了具有推理能力的模型支持百万级 token 上下文。发布时,百万级上下文出现在一个更便宜、更快但推理能力较弱的变体上——或者在 200K 窗口中提供了完整的推理能力。如果架构假设两者兼得,那就必须有所取舍。计划使用单次调用工作流的团队,现在需要编写估算中从未包含的分块 (chunking) 和聚合 (aggregation) 代码。

层级不对 (Wrong tier)。 能力确实出现了,但仅限于特定的层级,被挡在企业合同、更高的 token 定价或特定的区域端点之后。对于拥有财富 500 强客户的 B2B 团队来说,这通常没问题;但对于专业消费者 (prosumer) 产品,单位经济效益 (unit economics) 就会崩溃。路线图项在技术上确实交付了,但在生产中使用它的路径却被没人负责的商务洽谈挡住了。

可靠性形态不对 (Wrong reliability shape)。 基准测试过了,评估也通过了,但客户仍在抱怨。这是基准测试与现实差距最昂贵的表现。模型越来越多地针对流行的公开评估进行优化——一些从业者称之为“刷分 (benchmaxxing)”——但真实的企业工作负载是混乱且依赖上下文的,与任何已发布的排行榜任务都不相同。Agent 在 CRM 类工作流中的目标完成率通常低于 55%,即使底层模型在基准测试中名列前茅,因为一个 20 步的链条在每步可靠性为 95% 的情况下,复合后的整体成功率仅为 36%。一个基于头条数据假设“Agent 能力已足够好”的路线图,现在欠下了整条未被纳入范围的可靠性工程债。

为什么聪明的团队不断进行这种博弈

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates