对于你的 AI 功能，“自研还是购买” 是个错误的问题

2026年5月18日 · 阅读需 10 分钟

Software Engineer

每场关于 AI 功能的规划会议最终都会陷入同样的二元对立。一方想“直接套个 API”并在下个冲刺阶段发布。另一方则想“掌握模型”，以便公司掌控自己的命运。这种争论听起来很有战略意义，但实际上是一个分类错误。

“自研还是购买”将你的 AI 功能视为一个不可分割的整体，要么自研，要么购买。但 AI 功能并不是单一的事物。它是一个由至少五个不同层级组成的堆栈，每一层都有其自身的答案。如果团队将决策简化为一次掷硬币，几乎总是会掌握错误的层级并租用错误的层级，因为他们提出的问题无法区分这些层级之间的差异。

更好的问题不是“我们能做出来吗？”大多数东西你都能做出来。真正的问题是：如果竞争对手明天购买了完全相同的东西，哪一层会破坏我们的差异化？ 这个问题会为你梳理出堆栈的优先级。

AI 功能的五个层级

拆解任何一个 AI 功能，你都会发现其底层大致相同的解剖结构：

模型 (The model) —— 进行推理的基础模型。GPT、Claude、Gemini，你托管的开源权重模型，或者是其中之一的微调版本。
检索 (Retrieval) —— 你在运行时输入给模型的数据：向量索引、知识库、支撑回答的文档和记录。
编排 (Orchestration) —— 控制流。提示词组装、工具调用、重试、多步智能体循环、模型间的路由。
评估 (Evals) —— 告诉你变更让产品变好还是变坏的测试套件：黄金数据集、评分细则、回归检查。
用户体验 (UX) —— 用户接触的界面。该功能如何收集意图、展示不确定性、允许用户纠正。

“构建 AI 功能”或“购买 AI 功能”是一个跨越所有五个层级的句子。这就像数据库团队在不说明是指存储引擎、模式（schema）、查询层还是仪表盘的情况下，争论“自研还是购买”一样毫无意义。只有当你针对每一层做出决策时，决策才变得可行 —— 而每一层得到的答案并不相同。

掌握模型很少能构建护城河

掌握模型的直觉最强烈，但也最常出错。这感觉像是最深的一层，因此也是最具防御性的一层。事实恰恰相反。

基础模型是堆栈中商品化速度最快的组件。多个实验室在重叠的时间线上发布前沿模型，价格每年大约下降一个数量级，而开源权重模型落后前沿模型的时间仅以月计，而非以年计。如果你的差异化在于“我们使用了一个好模型”，竞争对手只需看一眼定价页面就能抹平差距。投资人视角的测试很直白：如果前沿实验室明天发布了一个好 10 倍的模型，你的公司还有存在的理由吗？如果诚实的答案是否定的，那么模型从来都不是你的护城河。

微调是学习代价最高昂的地方。微调感觉像是私有的 —— 它是你的权重，基于你的数据训练。但微调是一个快照。它相对于起始的基础模型是冻结的。18 个月后，基础模型已经更新了两代，而你的微调现在变成了你独自维护的分支，在实验室免费改进的移动前沿之后缓慢漂移。你并没有建立护城河。你建立了一个维护负担，并将其称为护城河。

掌握模型在少数情况下是有意义的：严格的数据驻留或监管约束、API 确实无法满足的延迟或成本包络，或者领域与训练分布相距甚远，以至于没有通用模型能接近。除此之外，掌握模型意味着你要与每年投入数十亿美元的实验室赛跑。那不是护城河，那是跑步机。

掌握评估集和数据几乎总能构建护城河

现在看看每个人都视为“基础架构”的层级。你的评估集（eval set）是整个堆栈中最具防御性的资产，但大多数团队看不到它，因为它从未以功能的形式出现。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

对于你的 AI 功能，“自研还是购买” 是个错误的问题

AI 功能的五个层级

掌握模型很少能构建护城河

掌握评估集和数据几乎总能构建护城河

Recommended Reading

关于 Tian Pan

AI 功能的五个层级​

掌握模型很少能构建护城河​

掌握评估集和数据几乎总能构建护城河​

Recommended Reading

关于 Tian Pan

AI 功能的五个层级

掌握模型很少能构建护城河

掌握评估集和数据几乎总能构建护城河