AI 工程团队的人员配置:每个功能都有 AI 组件时,谁负责什么
三年前,"AI 团队"意味着一群藏在组织架构角落里的专家,对产品工程师基本不可见。如今,一位金融科技公司的高级软件工程师,周一用微调模型上线欺诈评分功能,周三为客户支持搭建 RAG 管道,周五调试 LLM 延迟问题。专家并没有消失——但"AI 工作"与"产品工程"之间的边界,消失得比几乎所有人预想的都快。
大多数团队的应对方式是把新头衔贴在旧职位描述上,然后宣告完事。这是错误的答案,功能失调很快就会显现:所有权不清、工具重复,以及一个 ML 平台团队把半数时间花在解释"为什么产品团队不能直接调 OpenAI API"上。
本文探讨如何把结构搭对——不是抽象地谈,而是针对大多数工程组织实际经历的 AI 采用阶段。
真正重要的角色
LLM 工具链的爆发催生了令人困 惑的职位分类。你会看到 AI 工程师、ML 工程师、LLM 工程师、GenAI 工程师、AI 平台工程师等职位,往往被交替使用。这些区别比标签本身更有意义。
AI 工程师(有时也称 LLM 工程师)在应用层工作。他们集成 LLM API、构建 RAG 管道、搭建工具调用和 Agent 工作流、管理提示词版本,并拥有评估框架——用来判断功能是否真的在正常运行。他们来自全栈或后端背景,精通 Python 和 TypeScript。他们不训练模型,而是使用模型。
ML 工程师在模型层工作。他们构建和维护训练管道,在私有数据上做微调,管理嵌入模型,设计特征存储,并运营以规模化提供预测的推理基础设施。在客服记录上微调基础模型、从行为日志构建推荐引擎、为搜索产品优化重排序器——这些都是 ML 工程的工作。
数据工程师构建让上述两者都成为可能的基础设施。没有可靠的数据管道,AI 工程师的 RAG 索引和 ML 工程师的训练集都会悄然退化。这不是 AI 专属角色,但它成为瓶颈的速度往往超出团队预期。
产品工程师是这其中的变量。他们一直存在,但 LLM 大幅拓展了他们无需求助专家就能构建的东西。一个理解提示设计、基础评估方法论和 API 成本管理的产品工程师,现在可以独立拥有两年前需要 ML 工程师才能完成的功能。这是能力的跃迁,不仅仅是效率提升——它有深刻的结构性含义。
核心洞察:LLM 商品化了大量过去需要专业 ML 知识才能完成的工作。情感分类、实体抽取、意图路由、摘要、基础问答——这些现在都是产品工程任务。ML 工程师的角色收缩到了真正困难的问题上:私有模型适配、规模化推理基础设施,以及让你相对于使用同款基础模型的团队拥有真正护城河的训练管道 。
谁负责什么:团队最容易搞错的所有权问题
所有权混乱是 AI 工程组织中最常见的功能失调。具体表现为:
- 产品团队直接调用模型 API,积累出无人审计的提示债务
- ML 平台团队拥有评估框架但不拥有功能,导致质量信号永远无法到达能采取行动的人
- 数据工程师维护着喂给 ML 模型的管道,却从未见过那个模型
根本原因在于,大多数 AI 所有权地图是为"AI 是专项附加功能"的世界绘制的,而不是"AI 是每个功能的组成成分"的世界。解决方法是明确定义三个不同的所有权区域:
功能所有权归产品团队。他们拥有用户体验、AI 功能本应撬动的业务指标,以及判断功能是否正常的评估标准。他们不必然拥有模型或基础设施。
平台所有权归 ML/AI 基础设施团队。他们拥有模型注册表、评估框架、推理网关、成本归因系统,以及让产品团队能安全高效地交付 AI 功能的工具链。他们不拥有功能。
模型所有权是有争议的中间地带。当产品团队为其领域微调了一个模型,谁拥有产出的制品?当 ML 团队发布一个新的嵌入模型,改变了六个产品功能的检索行为,谁来审查这个变更?这些问题需要在演变成事故之前有明确的答案。
实操解法:模型制品归训练者所有,但对共享模型的变更需要经过评审流程,所有下游功能负责人都 要参与。这听起来显而易见,但大多数团队没有把它写在任何地方。
三种结构模型及其失败方式
随着 AI 采用规模扩大,团队通常会落入三种结构模型之一。每种都有其自然的失败方式。
集中式 AI 团队
一个团队负责所有 AI 工作。产品团队提需求,AI 团队构建和维护一切。在 AI 使用稀疏、团队正在建立标准的极早期阶段,这种方式有效。当产品团队开始以中央团队无法跟上的速度推进时,它就会崩溃。积压填满,产品团队开始绕过瓶颈直接调 API,中央团队对实际在构建什么失去了可见性。
具体失败模式:集中式 ML 团队历史上对产品影响的交付不足,因为他们优化的是模型质量指标,而这些指标不直接映射到业务结果。研究表明,集中式 ML 团队往往被有趣的模型问题吸引,而非最高杠杆的产品问题——不是因为工程师做了错事,而是激励结构奖励算法进步而非已上线功能。
完全嵌入式 AI 工程师
每个产品团队有自己的 AI 工程师,端到端拥有一切。这给了产品团队最大速度和紧密的所有权。失败模式是碎片化:每个团队重新发明评估框架、自建提示词版本管理系统、独立处理模型升级。技术标准漂移。AI 功能的安全审查变得不一致。当模型提供商变更 API,你要通知十二个团队而不是一个。
知识共享也会退化。嵌入式工程师与做类似工作的同行失去联系,这对 AI 工程来说比大多数专业更重要,因为这个领域变化足够快,跨团队边界 的非正式知识传递是重要的学习来源。
中心辐射型
一个中央 AI 平台团队拥有共享基础设施——评估框架、模型注册表、推理网关、成本归因、安全审查流程。产品团队嵌入 AI 工程师,这些工程师拥有领域内的功能,通过定义清晰的接口使用平台能力。中央团队的客户是内部工程师,不是终端用户。
这是大多数组织在尝试过另外两种之后最终收敛的模型。Facebook 的集中式数据工程团队就是这样运作的:所有团队采用的标准化工具,每个团队在其上构建的东西保留自主权。Uber 的 Michelangelo 平台在 ML 基础设施上遵循同样的模式。
中心辐射型的失败方式是组织层面的:平台团队优化开发者满意度指标(采用率、NPS),而忽视了他们的投入是否真正在创造业务价值。为没有产品团队真正需要的功能构建精妙 API 的平台团队,是真实存在的现象。通过要求平台团队至少共同拥有一个生产功能来应对这一点——这让他们与实际约束保持连接。
三个阶段的人员配置
正确的团队结构取决于你在 AI 采用上所处的位置,而不是什么在组织架构图上好看。
早期阶段(前 1-3 个 AI 功能上线)
雇用 AI 工程师,而非 ML 工程师——除非你的产品假设从第一天起就需要私有模型训练。AI 工程师能更快交付 LLM 驱动的功能,从 AI 工程到 ML 工程的技能差距比反方向更容易之后弥补。保持团队集中,并在需要之前就构建评估基础设施——在截止日期压力下构建的评估工具通常质量很差。
