跳到主要内容

为什么你的 AI 路线图不应该有 12 个月的计划

· 阅读需 10 分钟
Tian Pan
Software Engineer

我上个季度合作的一个团队花了六周时间构建了一个“智能文档分类器”——微调模型、评估框架、自定义 UI,以及整个生产流水线。它在周二上线。接下来的周一,一个全新的通用模型发布了,在同样的评估中,它以零样本 (zero-shot) 的方式击败了他们的微调模型,且无需任何基础设施投入。他们整个第二季度的 OKR 变成了一个仅包含一行 API 调用的包装器。路线图在 12 个月前承诺要“掌控分类技术栈”。而这项承诺在墨迹未干之前就已经错了。

这并非孤例。行业追踪器记录显示,仅在 2026 年第一季度,各大实验室就发布了 255 个模型,到 3 月份为止,平均每周约有三次意义重大的前沿模型发布。成本已经崩溃:API 定价自 GPT-3 以来下降了 97%,顶级供应商之间的差距在大多数基准测试中已缩小到统计噪声范围内。当底层技术变化如此之快时,一份为期 12 个月的特性路线图就不再是计划——而是一份你无法重新审视的赌注清单,这些赌注是根据在你交付第二个项目之前就会过时的信息做出的。

人们很容易在读到这里后得出“停止规划”的结论。这是一个错误的教训。正确的教训是,规划的单元必须改变。一份按日期承诺特性的路线图假设构建块的成本和能力是稳定的。事实并非如此。你实际拥有的是一个能力押注组合,每个押注都有验证周期和终止条件。将该组合视为特性路线图是一个范畴错误,它在各个团队中表现为相同的三种失败模式。

AI 长期路线图失败的三种方式

第一个失败是无护城河特性。你致力于构建的东西,到你交付时,平台供应商将作为默认功能免费提供。PDF 提取、基础摘要、简单分类、转录、基于嵌入的搜索——这些在 2023 年都是可防御的产品表面,而现在只是模型供应商定价页面上的一个勾选项。如果你 18 个月的路线图中的特性依赖于当前的能力差距,那么你就是在与一条对你不利的曲线赛跑。你的路线图越长,其中处于不断上升的水位线以下的部分就越多。

第二个失败是错误的底层技术押注。你致力于一种技术路径——微调、特定的代理 (agent) 框架、特定的嵌入模型、自定义 RAG 流水线——六个月后,一种新的模型架构或能力使整个技术栈过时。在 2024 年构建复杂检索流水线的团队,眼睁睁地看着长上下文模型将他们一半的工作压缩进了一个系统提示词中。构建复杂工具编排层的团队,眼睁睁地看着原生工具调用能力取代了他们的自定义路由。这种赌注不在于特性,而在于底层技术,而底层技术已经发生了迁移。

第三个失败是冻结的假设。你致力于以特定方式解决用户问题,但你也锁定了关于用户会容忍什么、他们会接受什么延迟、特性应该采用什么 UX 形式的假设。然后,真实的运营数据在第四个月到来,并反驳了每一个假设。在正常的产品中,你会重构计划。但在“已批准的 12 个月路线图”中,你会完成你承诺的事情,以一种没人要求的形式交付一件你认为他们想要的东西,并称之为执行。今天撰写的 AI 路线图中,超过 60% 在九个月内实际上已经过时——而组织的反应通常是照样交付,因为另一种选择需要承认计划是错误的。

路线图的替代方案:能力押注组合

如果“按日期交付特性”是错误的单元,那么什么是正确的?能够站得住脚的模式是将 AI 工作视为一系列小型、有时间限制的能力押注组合,每个押注的结构都让你能够快速判断它是否奏效,如果不奏效,则可以干净利落地终止它。

能力押注不是“在第三季度前构建特性 X”。它是一个假设:我们相信能力 Y 应用于用户群体 Z,会产生可衡量的结果 W。 它包含三样路线图项所不具备的东西:一个可证伪的断言、一个固定的时间窗口(通常为 4-8 周)以及一个明确说明何时停止的终止条件。投资组合的比喻很重要,因为不需要每个押注都成功——系统设计时就允许部分失败,任何一个押注的失败都是信号,而不是挫折。这更接近于研究实验室的运行方式,而不是传统产品团队的规划方式,这就是重点:这项工作与应用研究的共同点多于交付已知良好的特性。

每个押注在开始前都应回答四个问题。我们要测试什么能力?(具体的:“针对 20 万 token 合同的长上下文推理”,而不是“法律 AI”。)什么结果能证明它有效?(定量的:“在留出测试集上达到 ≥80% 的提取准确率,中值延迟在 8 秒以下”,而不是“用户喜欢它”。)预算是多少?(包括日历时间和金钱——例如,六个工程周加上 2 万美元的推理额度。)什么情况下终止?(一个预先承诺的阈值:“如果经过三个迭代周期后准确率仍低于 65%,无论已经投入多少,我们都会关闭它。”)如果没有终止条件,每一个押注都会漂向沉没成本的小圈子。

为什么止损准则是核心支撑

止损条件是 AI 战略工作中最为稀缺的部分。团队发现编写成功准则很容易——想象成功总是充满乐趣的。但他们发现,要提前承诺在什么条件下选择放弃,几乎是不可能的。因此,本该在第六周就终止的押注被拖到了第十六周,而团队什么也没学到,因为他们分不清“这需要更多时间”和“这种方法从根本上就是错的”之间的区别。

一个有用的止损准则是具体的、预先承诺的,且令人感到不适的。“如果我们的评估套件在第六周结束时,没有显示出比零样本基准高出 15 点的提升,我们就放弃微调,转而采用提示词 + 检索的方式。”这句话同时达成了几个目标:它定义了对比对象(零样本基准,而非随意的内部指标);它定义了量级(15 点,而非“显著提升”);它定义了日期;它还定义了下一步行动,从而让止损不再被视为失败,而是决策树中一个预设的分支。如果你在押注开始时写不出这样一句话,那你不是在管理投资组合,而是在列愿望清单。

之所以这对 AI 而言比传统软件更重要,是因为 AI 押注的失败模式很少表现为 Bug。它往往是一种隐性的性能不足:系统大体上能跑通,演示看起来也没问题,但评估指标就是比你本应对比的基准低两个点。如果没有止损准则,这两个点的差距就会演变成对一个系统的六个月投入,而这个系统从一开始就比你在第一周就否决掉的简单方案稍微差一点。

12 个月后的规划该做什么

这并不是在反对长期思考,而是在反对长期致力于特定的功能和实现方案选择。能在 12 个月周期中存续下来的不是功能,而是持久资产,这些资产会随着底层模型层的商品化而变得愈发有价值。

值得做年度规划的事情包括:私有数据飞轮(只有你的产品才能收集的标注样本、用户纠错和结果信号——无论你使用哪种模型,这些都会产生复利)。分发渠道与集成深度(你的产品在用户工作流中所处的位置、你接入的合作伙伴和 API、与企业级买家建立的信任关系)。评测基础设施(你比任何人都更快地判断出新模型是否真的更适合你的使用场景的能力——当模型能力每季度都在变化时,能在 48 小时内完成重新评估的团队将击败需要六周时间的团队)。信任与品牌(合规姿态、安全认证,以及能让你卖给受监管行业的那些建立缓慢的声誉)。团队中蕴含的领域专业知识(理解用户真正需求的人才是每个押注的瓶颈,而不是推理成本)。

注意清单上没有的内容:特定的模型集成、特定的 UI 界面、特定的功能名称。这些应该存在于滚动的 90 天窗口期内,在每个周期进行重新评估,并且丢弃成本极低。十二个月计划应该描述的是你正在其上布局的棋盘,而不是你将在棋盘上做出的具体招式。

在实践中运行该系统

其机制比听起来要简单。用两份产出取代年度路线图文件:一份长期的“能力假设”文档(你正在构建哪些持久资产,你对平台层走向的看法,你会进行和不会进行哪类押注)和一份滚动的 90 天投资组合表(当前活跃的具体押注、其止损准则、负责人、预算,以及我们从已结束的押注中学到了什么)。能力假设每季度更新一次,且变化缓慢。投资组合表每周更新一次,且应当频繁更迭。

评审节奏至关重要。押注启动会是一个 30 分钟的会议,上述四个问题将在一页纸上得到回答。押注中期检查是简短且冷酷的:我们是否能按期达到止损准则,是还是否?押注收尾——无论押注成功、失败还是被终止——都会产出一份一页纸的总结,记录你对能力、用户、底层技术或评测方案的所学。这些总结是团队产出的最有价值的资产,因为当底层技术变化如此之快时,它们是唯一能在周期之间产生复利的东西。

最困难的部分在于文化,而非流程。习惯了传统路线图的高管和利益相关者会不停地问:“明年 AI 的路线图是什么?”而你的回答——“我们正在这个能力领域进行一系列押注,有着明确的止损准则,我们会在 90 天后告诉你哪些有效”——在他们听来就像是你根本没有计划。事实上,考虑到基础技术的行为方式,这是唯一诚实的计划。做出这种转变的团队并不比那些拥有十二个月甘特图的团队缺乏严谨性。相反,他们更加严谨,因为他们以书面形式承诺了在什么条件下会承认自己错了。这种承诺才是战略真正的产出。除此之外,一切皆为点缀。

References:Let's stay in touch and Follow me for more thoughts and updates