缺失的实验组:你的 AI 实验缺少 “关闭 AI” 的对照组
看看你的团队最近发布的六份关于 AI 功能的实验报告。实验组都有哪些?很可能你测试的是“新提示词 vs. 旧提示词”、“GPT-5 路由 vs. GPT-4 备选”、“推理模型 vs. 快速模型”或者“有检索 vs. 无检索”。你报告了参与度、任务完成度或会话时长的提升。你称之为产品影响力。一个季度过去了。推理成本不断攀升。没人停下来问一个首席财务官 (CFO) 最终会问的问题:如果这个功能根本不存在,会发生什么?
这个问题就是那个缺失的实验组。你的实验不断衡量的提升是“更好的 AI vs. 较差的 AI”,但支撑你业务的是“AI vs. 什么都没有”——或者更尴尬的是,“AI vs. 我们从未记录下来的三行启发式代码”。这是结论完全不同的两种实验,而 2026 年大多数 AI 产品项目只运行过第一种。第二种实验才能告诉你,该功能是否配得上它的推理账单。
为什么空实验组总是被跳过
其中的机制平淡无奇。一名产品经理 (PM) 发布了一个 AI 功能。该功能在定性评估中看起来很有前景。他们将其发布给 50% 的用户,并将另外 50% 称为对照组。参与度上升了 4%。功能上线了。下一季度,一个新模型发布了,实验变成了“旧提示词 vs. 新提示词”——那 4% 的基准已经融入其中,被默认视为底线。在过去的 18 个月里,产品、用户群和模型都发生了变化,但“关闭功能”的情况从未被测试过。
这就是基准线如何淡出视野的。第一场之后的每一次实验都是在比较两个包含 AI 的变体。AI 本身成了产品中的“背景辐射”。在某个时刻,有人提到了留存组 (holdout group),而产品经理会理直气壮地指出,向用户隐瞒一个已经验证过的功能就像是把收入拒之门外。1–2% 长期留存组的 Statsig 指导原则之所以存在,正是为了抵御这种直觉,但在文化层面上,在 AI 功能上运行留存组的门槛远高于发布新 AI 功能的门槛——这是一种发人深省的不对称。
还有一个隐性的原因:空实验组可能会产生没人想要的发现。在过去两年中,任何运行过纯净“关闭 AI”留存组的团队,都有很大几率发现 AI 版本的表现不如显而易见的基于规则的备选方案,或者该功能提升了参与度但没有提升留存率,又或者驱动整体增长的子群体仅占用户的 15%,而另外 85% 的用户对此漠不关心甚至感到厌烦。这些发现每一个都很有用,但没一个是大家想在周一早报上读到的。
