跳到主要内容

AI 团队拓扑问题:为什么组织架构决定了 AI 能否上线

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数 AI 功能都死在"在 notebook 中可行"和"在生产环境可行"之间的鸿沟里。不是因为模型不好,而是因为构建模型的团队和拥有产品的团队从未坐在同一间会议室里。AI 团队拓扑问题——AI 工程师在组织架构中的位置——悄然成为你的 AI 投资能否上线的最大预测因素。

数据印证了这一点。只有大约一半的 ML 项目能从原型走到生产环境,在成熟度较低的组织中,失败率高达 90%。与此同时,CircleCI 的 2026 年软件交付状态报告发现,尽管 AI 辅助代码生成使功能分支吞吐量提升了 59%,中位团队的生产分支产出实际上下降了 7%。代码写得前所未有地快,只是没有上线。

三种模型及其失败模式

组织通常会为其 AI 团队选择三种结构之一:集中式、嵌入式或平台式。每种都有其特有的失败方式。

集中式模型——一个专门的 AI 团队或卓越中心服务整个公司——集中了稀缺人才并建立了深厚的技术专长。但它也创造了一种服务台动态。产品团队提交请求,AI 团队排优先级,然后队列形成。AI 团队为模型质量优化,因为那是他们能衡量的。产品团队需要的是能处理其特定领域边缘情况的东西。这两个目标之间的差距就是项目死亡的地方。

完全嵌入式模型——ML 工程师直接向产品团队汇报——解决了对齐问题,但创造了新问题。每个产品团队重新发明相同的基础设施。推荐团队建自己的特征存储。搜索团队建自己的。风控团队建自己的。最终你得到三个不兼容的特征存储、三条不同的部署管道,以及整个组织零共享学习。

平台式模型——一个共享的 ML 平台团队,产品嵌入的 ML 工程师使用该平台——是理论上的理想状态。实践中,它要求大多数公司尚未达到的组织成熟度。平台团队为通用性而建,产品团队需要特定性,两者之间的协商本身成为瓶颈。

这些模型没有哪个是天生错误的。问题在于大多数组织根据当前人数而非当前失败模式来选择。

扼杀项目的交接

AI 团队组织中最具破坏性的模式是研究到生产的交接。数据科学家或 ML 研究员在 notebook 中开发模型,用留出集验证,向利益相关者展示令人印象深刻的指标,然后将其"交接"给工程团队进行生产化。

这种交接可预见且反复地失败,原因如下:

  • 训练-服务偏差。 在 notebook 中工程化的特征与生产实现不匹配。科学家在静态数据集上使用 pandas join。生产环境需要 p99 延迟在 50ms 以内的实时特征查找。
  • 约束错位。 科学家在不知道延迟 SLA 的情况下设计模型。工程师发现模型每次预测需要 500ms,而产品要求 50ms。这是一个月的白费功夫。
  • 可复现性差距。 在个人环境中临时训练的模型缺乏版本控制、依赖固定和确定性数据管道。重新训练需要考古式的挖掘。
  • 后期发现。 生产需求只在开发完成后才浮现。到那时,模型架构可能需要根本性变更,而不仅仅是工程打磨。

解决方案不是更好的文档或更详细的交接规范。而是完全消除交接。能可靠地交付 AI 功能的团队,是 ML 工程师和产品工程师在同一个 sprint 中工作、参加同一个站会、共同拥有同一个生产服务的团队。

真正能上线的模式:联邦制模型

拥有最佳记录的组织模式是所谓的联邦制模型:具有领域焦点的跨职能团队,向中央 ML 组织汇报。这种结构保留了共享知识库——通用工具、标准化实践、ML 专家的职业路径——同时让这些专家深度嵌入产品团队以理解领域。

与纯嵌入式的关键区别在于双重问责。联邦制模型中的 ML 工程师与产品团队有虚线汇报关系,与 ML 组织有实线汇报关系。产品团队设定优先级并提供领域上下文。ML 组织设定标准、维护共享基础设施,并防止完全嵌入式团队中泛滥的重复建设。

具体来说,这意味着:

  • 联合启动会,ML 和产品工程师在任何建模开始之前就延迟目标、数据可用性和基础设施约束达成一致。
  • 共享特征存储和版本控制的管道,从设计上防止训练-服务偏差。
  • 开发期间的生产约束作为护栏,而不是部署时才发现的需求。
  • 协作验证关卡,ML 质量指标和生产可靠性指标都必须通过才能上线。

《纽约时报》发现这种方法比让并行团队独立解决类似问题更高效——构建一个模型并在各领域进行适配,比让两个团队并行构建两个模型更经济。

验证瓶颈

这个问题有一个较新的维度,AI 辅助编码的兴起使其变得尖锐。随着 AI 生成更多代码,瓶颈从编写转移到验证。CircleCI 的数据清楚地表明了这一点:主分支构建成功率已降至 70.8%,是五年多来最低水平,而基准线是 90%。恢复时间同比增长 13%。团队推送了更多代码,也破坏了更多东西。

这产生了一个新的团队拓扑问题:谁来验证 AI 生成的输出?

一些组织正在尝试一个新角色——AI 可靠性工程师——其工作是验证 AI 输出而非生成代码。"半人马小队"结构将一名高级架构师与两名 AI 可靠性工程师和一个自主代理舰队配对。架构师设定方向。可靠性工程师验证。代理执行。

无论这种特定结构是否会流行,其底层洞察很重要:AI 团队现在需要将验证作为一等功能来考虑,而不是代码审查的副产品。将审查视为事后之事的团队,正是在交付统计中表现为中位团队、生产增长为零的那些。

成熟度演进

正确的团队拓扑取决于你现在在哪里,而不是你想去哪里。组织经历可辨识的阶段:

阶段 1:咨询模型。 一个小型集中团队承接全公司的高优先级项目。当你的 ML 工程师少于五人,需要在投资基础设施之前证明价值时,这很有效。风险是变成永久的服务台。

阶段 2:专业化模型。 随着团队增长,ML 工程师嵌入特定产品领域。当你有足够的人才来配备多个领域而不会过度分散时,这很有效。风险是基础设施重复和知识孤岛。

阶段 3:平台模型。 共享 ML 平台出现以服务嵌入式工程师。当组织有足够的规模来证明平台投资的合理性时,这很有效。风险是以产品交付为代价过度工程化平台。

阶段 4:联邦制模型。 具有中央治理、共享工具和双重问责的嵌入式工程师。当组织足够成熟以处理矩阵汇报而不陷入瘫痪时,这很有效。风险是官僚主义开销。

跳过阶段不会节省时间。一个没有经过咨询阶段来证明价值,或没有经过嵌入阶段来理解领域需求就跳到平台模型的组织,会构建一个没人使用的平台。

按问题组织,而非按职能

最后一个将能交付的团队与只能演示的团队区分开的结构性洞察:按用例组织,而非按业务职能。

当你按业务单元组织 AI 团队——一个团队负责市场营销,一个负责运营,一个负责财务——你会得到三个独立解决类似问题的团队。三个独立的推荐引擎。三条重复的数据管道。三个从不互相交流的团队。

当你按问题类型组织——一个团队负责推荐系统,一个负责预测,一个负责自然语言理解——你会得到跨领域适配的共享解决方案。推荐团队构建核心引擎,市场营销、运营和财务都使用它并进行领域特定的调优。

这需要每个领域都有一个业务负责人,能够在 AI 团队的技术能力和领域的具体需求之间进行翻译。没有这个翻译层,按问题组织的团队会漂移到构建技术上令人印象深刻但不适合任何特定领域的解决方案——这不过是集中式模型的服务台失败的另一种伪装。

组织架构就是系统架构

康威定律对 AI 团队具有特别强的适用性。你的组织结构将决定你的 AI 系统结构,而后者将决定这些系统能否上线或停滞。

如果你的 ML 工程师和产品工程师处于不同的汇报链中,有不同的激励结构,你会得到在隔离环境中完美运行但在生产中失败的模型。如果你的 AI 团队是集中式的且没有嵌入的领域上下文,你会得到一堆未上线项目的队列。如果你的 AI 工程师完全嵌入但没有共享基础设施,你会得到重复的工作和不一致的质量。

2026 年从 AI 中获取价值的组织,不是那些拥有最好模型或最多算力的。而是那些首先解决了团队拓扑问题的——对齐激励、消除交接,并构建了让上线成为默认结果而非英雄式例外的结构。

References:Let's stay in touch and Follow me for more thoughts and updates