跳到主要内容

缺失的实验组:你的 AI 实验缺少 “关闭 AI” 的对照组

· 阅读需 10 分钟
Tian Pan
Software Engineer

看看你的团队最近发布的六份关于 AI 功能的实验报告。实验组都有哪些?很可能你测试的是“新提示词 vs. 旧提示词”、“GPT-5 路由 vs. GPT-4 备选”、“推理模型 vs. 快速模型”或者“有检索 vs. 无检索”。你报告了参与度、任务完成度或会话时长的提升。你称之为产品影响力。一个季度过去了。推理成本不断攀升。没人停下来问一个首席财务官 (CFO) 最终会问的问题:如果这个功能根本不存在,会发生什么?

这个问题就是那个缺失的实验组。你的实验不断衡量的提升是“更好的 AI vs. 较差的 AI”,但支撑你业务的是“AI vs. 什么都没有”——或者更尴尬的是,“AI vs. 我们从未记录下来的三行启发式代码”。这是结论完全不同的两种实验,而 2026 年大多数 AI 产品项目只运行过第一种。第二种实验才能告诉你,该功能是否配得上它的推理账单。

为什么空实验组总是被跳过

其中的机制平淡无奇。一名产品经理 (PM) 发布了一个 AI 功能。该功能在定性评估中看起来很有前景。他们将其发布给 50% 的用户,并将另外 50% 称为对照组。参与度上升了 4%。功能上线了。下一季度,一个新模型发布了,实验变成了“旧提示词 vs. 新提示词”——那 4% 的基准已经融入其中,被默认视为底线。在过去的 18 个月里,产品、用户群和模型都发生了变化,但“关闭功能”的情况从未被测试过。

这就是基准线如何淡出视野的。第一场之后的每一次实验都是在比较两个包含 AI 的变体。AI 本身成了产品中的“背景辐射”。在某个时刻,有人提到了留存组 (holdout group),而产品经理会理直气壮地指出,向用户隐瞒一个已经验证过的功能就像是把收入拒之门外。1–2% 长期留存组的 Statsig 指导原则之所以存在,正是为了抵御这种直觉,但在文化层面上,在 AI 功能上运行留存组的门槛远高于发布新 AI 功能的门槛——这是一种发人深省的不对称。

还有一个隐性的原因:空实验组可能会产生没人想要的发现。在过去两年中,任何运行过纯净“关闭 AI”留存组的团队,都有很大几率发现 AI 版本的表现不如显而易见的基于规则的备选方案,或者该功能提升了参与度但没有提升留存率,又或者驱动整体增长的子群体仅占用户的 15%,而另外 85% 的用户对此漠不关心甚至感到厌烦。这些发现每一个都很有用,但没一个是大家想在周一早报上读到的。

空实验组可以有哪些形式

“关闭 AI”并非只有一种形式。根据功能的不同,空实验组可以表现为以下任何一种形式,而选择权比机制更重要:

  • 功能缺席。在 AI 界面出现之前的产品形态。对于新功能的发布,这是最纯净的空值:用户完全看不到该功能。这就是营销增量文献中所说的“真正留存组”,它回答了那个最昂贵的问题——推理开支是否支付了产品真正需要的东西?
  • 非 AI 后备方案。同一界面的基于规则、启发式或确定性的实现。对于“智能”自动补全,这就是旧的自动补全;对于“智能”收件箱分类,这就是按时间顺序排列的收件箱;对于语义搜索,这就是词法 BM25。这种对比能告诉你,模型是否完成了静态规则无法完成的工作。
  • 更便宜的模型。在保持产品形态不变的情况下,刻意使用更弱的模型——在你发布 Opus 的地方使用 Haiku,在你发布前沿 API 的地方使用 8B 开源模型。这是大多数团队实际运行过的实验;它对成本决策有用,但它不是空实验组。把它包含进来并认为大功告成是主要陷阱。

一个只运行第三类实验的项目,衡量的是其已经做出的决策的边际收益。而前两个实验组询问的是,该决策本身是否正确。

空实验组往往会显示什么

硬着头皮运行真正的“关闭 AI”组的团队,往往会发现一些在不同公司反复出现的模式:

参与度提升但留存率未提升。在第一个会话中点击率高且使用积极的功能,并不总是能让用户再次光临。a16z 2026 年的留存基准从另一个角度说明了这一点:“AI 驱动”的订阅应用的中位流失率比非 AI 竞品快大约 30%。总的来说,消费者会热切地尝试 AI 功能,但会迅速退订,这意味着如果你只衡量第一层表现,会话级的参与度提升可能与留存损失并存。

启发式规则已经足够好。当非 AI 后备方案是产品原有功能的强化版时,AI 变体有时在细微指标上的领先幅度甚至小于两次提示词修改之间的偏差。实际上,这意味着该功能的提升是真实但廉价的,而其中专门属于 AI 的部分,相对于一个没人愿意投资的确定性系统来说,仅仅是微不足道的舍入误差。

提升集中在特定子群体中。整体 6% 的增长掩盖了这样一种分布:15% 的用户通过该功能完成了实际工作,而 85% 的用户则完全没受影响或略感负面。这就是空实验组回报最高的地方:它揭示了哪些用户真正需要该功能,从而让你能够进行针对性发布,并停止为那些没有受益的人群支付推理费用。

能力漂移才是真正的关键。一年后运行相同的空实验组,你会发现“提升”可能已经增长、缩小或反转——这不是因为你的功能改变了,而是因为底层的模型改变了。如果没有定期的基准重新测试,你无法区分是你的产品变好了,还是底层的模型变好了。

这些模式都不是反对发布 AI 功能的理由。它们是支持“了解你发布了什么”的论据。

如何坚持空对照组的原则

空对照组是一个披着统计学外衣的文化问题。战术建议很简单;难点在于如何防止它在上线前的评审会议中被妥协掉。以下是几种在博弈中更容易存活下来的实践:

将空对照组设为上线门槛,而非上线后的可选项。 每一个新的 AI 功能都应包含一个空对照组——无论是功能缺失还是确定的回退方案(deterministic-fallback),都要经过深思熟虑。作为初始实验设计的一部分,其规模应足以检测到显著效果,且不能因为有人注意到 10% 的用户看不到该功能就将其缩减到 1%。这之所以有效,是因为在上线后更改实验契约会让人感到不适,而拒绝在后期添加空对照组则不会。

根据可检测到的效果确定样本规模,而非根据心理舒适度。 对于大多数 AI 功能实验来说,1% 的预留组运行成本虽然低廉,但在统计学上毫无意义,因为大多数 AI 功能无法产生 1% 样本量所能检测到的 50% 效果提升。如果你真正关心的效果是 3%,你就需要能检测出 3% 差异的样本量。不要让“不愿限制功能覆盖范围”的焦虑成为决定样本规模的函数。

按计划重新建立基准,而非临时起意。 长期运行的空对照组(3–6 个月)配合滚动队列,可以让用户轮换进入“AI 关闭”状态,从而捕捉底层模型的能力漂移。设置这个机制很枯燥,但运行它至关重要。Statsig 和 Eppo 都提供了相应的工具;成本很低,回报则是能随时回答“AI 是否仍在创造价值”。

在发布提升数据时,同时公布空对照组的数据。 当报告显示“提示词 B 相比提示词 A 提升了 4% 的参与度”时,也应注明“提示词 A 相比 AI 关闭状态提升了 2% 的参与度,这是两个月前的测量结果”。第二个数字才是商业决策的关键。如果它在 PPT 中缺席,它也会在讨论中消失。

预先承诺如果空对照组没有显示效果,你会怎么做。 这是大多数项目都会跳过的环节。如果空对照组显示 AI 功能对留存率没有任何增量贡献,会发生什么?下线该功能?切换到最便宜的模型?将范围缩小到受益的子群体?在运行实验前就做决定,因为事后重新解释“无显著结果”的压力会非常大,而诚实的答案往往会让发布该功能的人感到难堪。

CFO 最终会发起的对话

财务团队开始提出工程团队在过去两年本应自问的问题:在扣除持续的推理成本后,AI 功能相比于它完全不存在时,其增量价值是多少?这是一个关于增量(incrementality)的问题,领域内有很长的术语表来回答它——提升(lift)、反事实(counterfactual)、预留组(holdout)、合成控制(synthetic control)。目前 AI 产品项目中尚不具备的是组织层面的肌肉记忆。

能够从容应对这种对话的团队,是那些低调、定期运行空对照组,并足以对产品中每个 AI 功能给出可信增量价值数字的团队。表现糟糕的团队则是那些在过去两年的实验报告中全是“变体 vs. 变体”而没有任何“功能关闭”基准记录的团队。他们将不得不在时间压力下,针对一个没有干净反事实对比的产品仓促构建基准。在预算审查之前,这两类团队在参与度指标看板上看起来可能一模一样。

空对照组是预防第二种结果最廉价的保险。现在就开始运行,规模可以小,但要持续运行,并公布结果。另一种选择则是:一个清楚每一美元推理费用,但对增量价值的估算偏差在一个数量级以上的项目——也就是说,一个实际上并不知道自己是否奏效的项目。

References:Let's stay in touch and Follow me for more thoughts and updates