跳到主要内容

双速组织:为什么 AI 团队与产品团队的时钟频率互不兼容

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的 ML 团队进行了一项大有可为的实验。模型在评估集上比基准线高出了 8 个百分点。利益相关者们都很兴奋。然而,交付却花了四个月的时间——等到功能上线时,产品路线图已经发生了变化,提出需求的团队有了不同的优先级,而且由于部署目标在过程中发生了改变,一半的基础设施工作都得重做。听起来很耳熟吗?

这就是“时钟不匹配”问题:AI 团队和产品团队运行在完全不同的时间尺度上,而大多数组织将其视为协作失败,但实际上这是一个架构问题。你无法通过更好的站立会议节奏来修复结构性的不匹配。

三个永远无法达成一致的时钟

要理解为什么这种情况反复发生,命名 AI 产品中存在的三种截然不同的时间尺度会有所帮助。

模型实验以周为单位运行。一个单一的实验——定义假设、收集训练数据、进行微调或提示词评估、建立评估基准、运行消融实验、获得批准——在顺利的情况下需要三到四周。更大规模的工作(新模型架构、新任务类型、检索系统重新设计)可能延长到三个月或更久。这并非散漫,而是严谨地进行 ML 工作的“最小可行周期”。

产品发布以天为单位运行。一个采用两周一次冲刺(Sprint)节奏的功能团队,可以在不到一周的时间内发布可见的 UI 更改。即使是计划周期较长的团队,也可以在几小时内部署配置更改或文案更新。过去十五年来,围绕产品速度的工具链和预期都已经针对这种节奏进行了优化。

嵌入和检索索引更新以月为单位运行。即使是中等规模的语料库,重建生产向量索引也需要数小时。验证重建是否破坏了检索质量又需要数小时。为了在不引起线上产品回归的情况下安全地完成这项工作,意味着需要协调部署窗口——在实践中,如果你纪律严明,这意味着它每月发生一次;如果你不够严律,则每季度发生一次。

三个团队。三种节奏。没有一个是步调一致的。这并非巧合,它反映了每种工作类型的底层物理特性。

这种不匹配如何导致“永远在 Beta”的失败模式

在一个产品组织中运行三个时钟的实际后果是一种特定的失败模式:AI 功能永远处于测试版(Beta)。

典型的逻辑时间线是这样的:ML 团队完成了实验。该功能看起来足够好,可以发布,但它需要一个产品外壳——一个 UI、一个 API 接口、一个与现有数据管道的集成。产品团队正处于另一个冲刺的中期。等到产品团队准备好集成时,ML 团队又进行了两次实验,改变了推荐的方法。与此同时,第一个实验所基于的检索索引已经更新,因此原始实验的评估数据不再反映生产环境的行为。交接又需要三周的时间进行重新对齐。到上线时,模型已经略显陈旧,产品团队觉得自己在发布别人的工作,而 ML 团队则对这件事花了六个月时间感到沮丧。

量化这种功能障碍的数据是:完成开发的 AI 模型中,只有 15–22% 能真正进入生产环境。在那些进入生产环境的模型中,只有不到 40% 能在十二个月后维持可衡量的业务价值。这些数据并非关于模型质量,而是关于组织失调。

影子测试:桥接两种速度的模式

影子测试(Shadow testing)——也称为影子部署(Shadow deployment)或冠军-挑战者测试(Champion-challenger testing)——是解决 AI 与产品时钟不匹配最有效的结构性方案,但目前仍未被充分利用。

核心思想很简单:让实验模型与生产模型并行运行,针对实时流量,但不将实验模型的输出暴露给用户。生产模型返回真实的预测;实验模型在后台处理相同的输入,并记录其所有输出。没有用户会受到影响。但在挑战者模型触达真实响应之前,你已经为它积累了真实世界的性能记录。

这在解决时钟问题方面具有特殊意义:影子测试将实验节奏与发布节奏解耦。ML 团队可以持续针对实时流量运行挑战者模型,而无需产品发布。他们在几天或几周内积累关于生产环境表现的证据。当一个挑战者模型准备好毕业时,发布的理由已经非常充分——产品团队不需要信任冻结数据集上的评估结果;他们可以直接看到模型在上周实际查询中的表现。

基础设施要求并不高:一个可以将流量镜像到影子端点的负载均衡器或 API 网关,以及一个可以比较冠军和挑战者输出的可观测性层。运营开销是运行两个模型的处理成本,对于被影子的端点来说,推理成本大约增加到 2 倍。对于大多数组织而言,为了消除长达六周的重新对齐周期,付出这个代价是值得的。

在影子设置中需要监测的关键指标:

  • 冠军与挑战者之间的延迟差异(即便准确率提高,这里的回归也会阻碍发布)
  • 输出偏离率(冠军和挑战者意见不一致的频率,以及在哪些类型的输入上不一致)
  • 错误率和非预期的输出格式
  • 生产流量分布下的资源消耗(实验往往会低估 Token 计数和工具调用扇出)

异步批处理实验:将实验移出关键路径

帮助解决时钟不匹配的第二个模式是将模型实验完全从实时服务路径中移出,转入异步批处理工作流。

大多数 AI 团队在 Notebook 或内部评估工具中针对具有生产代表性的数据集运行实验。这种方式可行,但它使实验周期与数据管道紧密耦合——你需要生产数据的快照,需要计算资源,还需要有人监控运行。更重要的是,它让实验受限于产品团队的时间线:每一次实验都可能成为下一个 Sprint 的潜在阻塞点。

批处理实验打破了这种耦合。与其运行阻塞式评估,不如提交一个异步处理评估集的批处理作业,这通常能显著降低成本(与实时处理相比降低 50% 以上,且具有更高的频率限制)。ML 团队按照自己的节奏运行实验,无需召开产品会议。结果会在数小时内返回。产品团队在准备就绪时获取结果,而不是等待同步交付。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates