跳到主要内容

AI 功能何时能构建护城河(何时不能)

· 阅读需 10 分钟
Tian Pan
Software Engineer

谷歌一份泄露的内部备忘录直言不讳:"我们没有处于赢得这场军备竞赛的有利位置,OpenAI 也没有。"作者的论点是:用 LoRA 对模型进行微调大约只需 100 美元,开源社区可以在数月内复制闭源模型的能力,而且"我们没有护城河"。这是一位谷歌研究员在谈论谷歌自身的处境。如果世界上资源最雄厚的 AI 实验室内部都是如此,那对于押注数据优势的产品团队来说意味着什么?

诚实的答案是:大多数 AI 功能并非护城河,而是披着 UI 外衣的租用能力。但有些确实能真正复利积累——区别不在于你拥有多少数据,而在于数据真正创造防御性的特定机制条件。

为什么数据网络效应在 LLM 产品中失效

在传统 ML 中,数据网络效应的逻辑是:更多用户 → 更多数据 → 更好的模型 → 更多用户。这种复利是可以积累的。典型案例是谷歌搜索:每一次查询都让下一次查询变得更好。拥有数据的论点看起来无懈可击。

LLM 产品在两个地方打破了这个循环。

首先,基础模型提供商现在吸收了大部分训练数据的价值。 当 OpenAI 在互联网规模数据上训练 GPT-5,或 Anthropic 训练 Claude 4 时,他们提取了通用推理能力——而这正是你的微调以前负责产生的。你客户的专有数据只能在边际上产生影响。研究结论明确:拥有领域特定信号实时反馈循环的公司可维持 5 年以上的防御窗口,而拥有静态专有数据集的公司则面临 12-18 个月的脆弱窗口,之后新一代模型就会弥合差距。

其次,数据收益递减问题来得比大多数团队预期的更快。 Andreessen Horowitz 记录了一个客户支持聊天机器人的案例:在收集了 40% 的查询分布后,额外数据带来零增量收益。渐近线来得很早。大多数产品团队把初期微调的收益(确实存在)误认为是复利优势——而复利优势需要更具体的特定条件。

结果是应用层 AI 公司当前的毛利率低至 50-60%,这是由推理成本驱动的。基础设施层所提取的利润率反映了护城河真正所在之处。

区分护城河与封装器的四个信号

面对这样的格局,如何评估你的 AI 功能是在复利积累还是仅仅在搭 API 的便车?四个信号可以可靠地预测两种情况的区别:

信号一:你的训练数据不运营这个业务就无法生成。

这是最重要的信号,也是最罕见的。Veeva Systems 拥有 20 多年的制药销售代表通话记录、样本跟踪日志和医生参与历史。Palantir 基于机密政府和情报数据进行训练。Harvey AI 深度嵌入律师事务所,积累了"流程数据"——不仅仅是法律答案,而是有经验的合伙人如何处理复杂事务的工作流程轨迹。这些数据在其他任何地方都不存在,无法从数据经纪商处购买,也无法用公开来源近似复现。

如果你的训练数据可以从网上抓取、从数据供应商处购买或从公开来源重建,那它就不是结构性护城河。合成数据在越来越多的训练任务上已经超越真实数据;数据排他性只有在数据编码了无法被合成的行为时才具有防御性。

信号二:你的转换成本是运营层面的,而非习惯层面的。

有一个实际测试:你能用一句话向 Claude 描述你产品的核心功能,然后在 30 秒内得到 80% 的解决方案吗?如果可以,你只是一个伪装成业务的功能。习惯性转换成本——用户已经习惯了,他们了解界面——是脆弱的。任何足够好的产品都能在数周内打破它们。

运营性转换成本是持久的,因为替换工具意味着替换流程。Salesforce 拥有 3000 多个 AppExchange 集成,这些集成是客户自己构建的,而这些客户现在也成为了 Salesforce 生态系统的一部分。Workday 嵌入了合规、审计和薪资流程。ServiceNow 拥有审计人员所需的 ITSM 工单历史。这些系统不会因为更好的演示而被取代;替换它们需要重新设计周边工作流程、重新培训员工、迁移多年的结构化记录,通常还需要监管机构批准。

关于你的 AI 功能要问的问题是:如果明天出现了更好的替代方案,客户转换的代价是什么?不同的对话历史不是转换成本。拥有三年审计轨迹、监管机构信任和 40 个下游集成的系统级记录才是。

信号三:每次新增部署都会产生竞争对手无法获取的训练信号。

这是数据飞轮按预期运作的情形——但它需要具有特定属性的封闭反馈循环。GitHub Copilot 收集代码补全的接受/拒绝信号;该信号精确、可解释,并可直接用于模型改进。一个在对话结束时收集五星评分的聊天机器人几乎无法提供可用信号。

循环还需要足够快速地运行。在近实时完成部署-收集-再训练循环的系统,比按季度运行再训练的团队复利积累得更快。关键是,每次企业部署必须产生竞争对手无法获取的信号——不仅仅是使用遥测数据,而是关于你的特定类型客户如何解决其特定类型问题的专有行为数据。Harvey AI 在顶级律师事务所的部署产生了没有其他 AI 公司在场观察的法律推理轨迹。这是从训练集中的累积排他。

信号四:你的优势在于运营专业度,而非仅仅是模型。

Harvey AI 报告的约 0.2% 的幻觉率不是基础模型的能力。这是需要事实声明分解、交叉引用、自定义法律嵌入(基于 200 亿 token 的专业文本训练)和多模型编排的工程成就。这项工作花了数年时间调整,并在对抗性法律审查中进行了验证。竞争对手无法通过将其 API 提供商切换到更好的基础模型来复制它。

这是"努力差距"护城河。在复杂垂直任务上达到 99% 的可靠性——即能够存活于集成到受监管工作流程中的可靠性水平——需要无法被快速复制的累积工程投入。护城河不是模型;而是找到并弥合你所在领域每一个故障模式所需的数十年迭代。

护城河真正所在:一个光谱

从弱到强对防御机制进行排名,有助于校准投资决策:

  • API 封装器 — 没有护城河。数天内即可复制。
  • 在专有静态数据上微调的模型 — 12-18 个月的防御性。下一代模型弥合了大部分差距。
  • 具有实际转换成本的工作流集成 — 替换需要数年而非数月。需要重新设计流程。
  • 主动封闭循环数据飞轮 — 随使用量复利积累,但前提是循环以高质量、领域特定信号闭合。
  • 合规和监管锁定加上数据引力 — 替换以年为单位计量。审计轨迹、认证和监管机构信任无法迁移。
  • 专有数据贡献的网络效应 — 最强。在当今 LLM 产品中很罕见。信用局模式:参与者必须贡献才能获取。

对大多数 AI 功能的诚实诊断是它们处于前两个类别中。这不是失败——执行良好的 API 封装器业务可以非常有利可图。但把它称为护城河会让团队对他们真正在构建什么以及风险所在产生误解。

交互数据何时真正能复利积累

真正数据飞轮的条件是狭窄的,但可以实现。你需要同时具备三件事:

一个领域特定且可解释的反馈信号。 不是会话时长。不是对话结束时的点赞/踩。像"代码被接受、代码被拒绝、测试通过、测试失败"或"律师修改了这段话、律师接受了这段话"这样的信号是可解释的更正。通用参与指标无法训练任何有用的东西。

一个快到模型在分布转移前就能改进的循环。 用户行为和产品背景会漂移。在每周都在变化的产品上按月运行再训练循环,将永远滞后。当反馈质量下降时,飞轮就会停滞——这发生在产品改进到用户不再产生纠正信号时、用户行为转移速度超过训练可以跟踪时,或者当标注能力成为瓶颈时。

创造复合排他的部署密度。 特斯拉驾驶数据优势不仅仅是数量,而是在边缘案例中 3 亿英里的人类干预——合成数据无法复制且没有竞争对手在场收集的不寻常驾驶情况下驾驶员决策的长尾。这种排他是结构性的。你的飞轮需要类似的东西:每次新增部署必须产生竞争对手在没有在场的情况下无法近似的信号。

如果三个条件都满足,飞轮是真实的。如果缺少任何一个,优势是暂时的。

对产品决策的影响

实际含义是:在不先审计这些条件的情况下投资数据护城河是投机性的。在将专有数据视为竞争优势之前,工程团队应该能够回答:

  • 我们能描述这些数据改进模型的机制以及改进速度吗?
  • 我们的反馈循环是封闭的吗?我们知道再训练循环需要多长时间吗?
  • 今天客户转向竞争对手的成本是什么?这个成本是运营层面的还是仅仅是习惯层面的?
  • 我们的优势在于模型,还是在于在这个领域达到这个可靠性水平所需的十年工程积累?

无法清楚回答这些问题的公司很可能是在用好的 UX 租用能力。这可以成为一个业务——但不应该被误认为是复利防御性。构建真正护城河的团队通常是从第一天就为此设计的:选择能产生专有信号的部署策略、构建深到足以让替换需要重新设计流程的工作流集成,并将领域可靠性的工程工作视为产品本身,而非提示词。

护城河很少是数据本身。几乎总是将数据转化为竞争对手需要数年才能复制的东西所需的工作。

References:Let's stay in touch and Follow me for more thoughts and updates