跳到主要内容

对于你的 AI 功能,“自研还是购买” 是个错误的问题

· 阅读需 10 分钟
Tian Pan
Software Engineer

每场关于 AI 功能的规划会议最终都会陷入同样的二元对立。一方想“直接套个 API”并在下个冲刺阶段发布。另一方则想“掌握模型”,以便公司掌控自己的命运。这种争论听起来很有战略意义,但实际上是一个分类错误。

“自研还是购买”将你的 AI 功能视为一个不可分割的整体,要么自研,要么购买。但 AI 功能并不是单一的事物。它是一个由至少五个不同层级组成的堆栈,每一层都有其自身的答案。如果团队将决策简化为一次掷硬币,几乎总是会掌握错误的层级并租用错误的层级,因为他们提出的问题无法区分这些层级之间的差异。

更好的问题不是“我们能做出来吗?”大多数东西你都能做出来。真正的问题是:如果竞争对手明天购买了完全相同的东西,哪一层会破坏我们的差异化? 这个问题会为你梳理出堆栈的优先级。

AI 功能的五个层级

拆解任何一个 AI 功能,你都会发现其底层大致相同的解剖结构:

  • 模型 (The model) —— 进行推理的基础模型。GPT、Claude、Gemini,你托管的开源权重模型,或者是其中之一的微调版本。
  • 检索 (Retrieval) —— 你在运行时输入给模型的数据:向量索引、知识库、支撑回答的文档和记录。
  • 编排 (Orchestration) —— 控制流。提示词组装、工具调用、重试、多步智能体循环、模型间的路由。
  • 评估 (Evals) —— 告诉你变更让产品变好还是变坏的测试套件:黄金数据集、评分细则、回归检查。
  • 用户体验 (UX) —— 用户接触的界面。该功能如何收集意图、展示不确定性、允许用户纠正。

“构建 AI 功能”或“购买 AI 功能”是一个跨越所有五个层级的句子。这就像数据库团队在不说明是指存储引擎、模式(schema)、查询层还是仪表盘的情况下,争论“自研还是购买”一样毫无意义。只有当你针对每一层做出决策时,决策才变得可行 —— 而每一层得到的答案并不相同。

掌握模型很少能构建护城河

掌握模型的直觉最强烈,但也最常出错。这感觉像是最深的一层,因此也是最具防御性的一层。事实恰恰相反。

基础模型是堆栈中商品化速度最快的组件。多个实验室在重叠的时间线上发布前沿模型,价格每年大约下降一个数量级,而开源权重模型落后前沿模型的时间仅以月计,而非以年计。如果你的差异化在于“我们使用了一个好模型”,竞争对手只需看一眼定价页面就能抹平差距。投资人视角的测试很直白:如果前沿实验室明天发布了一个好 10 倍的模型,你的公司还有存在的理由吗?如果诚实的答案是否定的,那么模型从来都不是你的护城河。

微调是学习代价最高昂的地方。微调感觉像是私有的 —— 它是 的权重,基于 的数据训练。但微调是一个快照。它相对于起始的基础模型是冻结的。18 个月后,基础模型已经更新了两代,而你的微调现在变成了你独自维护的分支,在实验室免费改进的移动前沿之后缓慢漂移。你并没有建立护城河。你建立了一个维护负担,并将其称为护城河。

掌握模型在少数情况下是有意义的:严格的数据驻留或监管约束、API 确实无法满足的延迟或成本包络,或者领域与训练分布相距甚远,以至于没有通用模型能接近。除此之外,掌握模型意味着你要与每年投入数十亿美元的实验室赛跑。那不是护城河,那是跑步机。

掌握评估集和数据几乎总能构建护城河

现在看看每个人都视为“基础架构”的层级。你的评估集(eval set)是整个堆栈中最具防御性的资产,但大多数团队看不到它,因为它从未以功能的形式出现。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates