跳到主要内容

为什么 A/B 测试对 AI 功能失效(以及应该改用什么)

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能上线了。A/B 测试运行了两周。处理组看起来更好——参与度提升 4%,p 值低于 0.05。你将其全量发布。

六周后,收益消失了。参与度回到了原点,甚至更低。你的实验说了一件事;现实说了另一件事。

这不是偶发案例,而是将标准双样本 A/B 测试应用于 AI 功能时的默认结果——你没有考虑这种方法论中内嵌假设被打破的方式。这些失败模式是结构性的,而非统计性的——你可以按教科书完美地运行实验,却仍然得到错误答案。

标准 A/B 测试在 AI 功能上失效的三种方式

1. 非确定性输出导致方差膨胀

传统功能变更——新的按钮位置、修订后的文案、经过缓存预热的 API 调用——对相同输入每次产生相同输出。实验中的唯一随机性来自哪些用户落入哪个分组。

AI 功能打破了这一特性。即使使用相同输入和名义上固定的温度设置,LLM 每次调用也会生成不同输出。对生产环境 LLM API 的研究发现,即使是"确定性"配置也会在多次运行中产生可测量的输出变化——这种随机性是真实存在的,而非配置错误。

这很重要,因为你的实验统计功效计算假设了一个方差预算。来自模型随机性而非用户差异的每一单位方差都会膨胀你的标准误差,降低敏感度,并迫使你运行更长时间的实验才能检测到真实效果。更糟糕的是,你通常不知道观察到的方差中有多少来自模型引入,有多少来自用户,因此你无法轻易纠正。

实际后果:你的最小可检测效应量比你想象的更大。如果模型的输出方差正在蚕食你的信噪比,你观察到的 4% 提升可能并不可靠。

2. 新奇偏差使短期测量产生误导

当用户第一次接触 AI 功能时——生成式摘要、副驾驶建议面板、对话界面——他们参与往往是因为它是新鲜的,而不是因为它有用。这就是新奇偏差:看起来像信号实则是初次接触产物的行为。

AI 功能的挑战在于新奇偏差和真实效用可能随时间朝相反方向发展,而你无法在两周窗口内区分它们。

一项关于 AI 写作工作流程的纵向研究发现了与典型新奇效应相反的结果:在用户度过熟悉阶段后,感知到的有用性提升了 12%,任务完成速度提升了 7%。这些收益在用户学会有效与系统交互后才出现——通常在大约四到五次使用后。从第一天就开始测量的两周 A/B 测试,几乎可以肯定是在捕捉熟悉阶段的困惑和探索,而非稳定状态下的效用。

另一方面,某些 AI 功能会产生纯粹由新奇驱动的参与峰值——用户点击 AI 建议是因为它就在那里,而不是因为它有帮助。当新奇感消退后,参与度回落至基准或更低。捕捉到峰值的 A/B 测试会显示提升;更长的观察窗口则会显示回归。

3. 协变量漂移破坏了处理/对照等效性假设

双样本 A/B 测试的有效性建立在一个假设上:处理组和对照组在实验开始时统计上等效,并在整个实验过程中保持如此。随机化使这在期望上成立,但协变量漂移——实验窗口内用户特征或上下文分布的偏移——可能以难以检测的方式违反这一假设。

AI 功能特别容易受到这个问题的影响,因为它们往往首先被早期采用者使用。如果你的功能是一个在实验期间通过口耳相传逐渐在高级用户中传播的编程助手,那么在第二周进入处理组的用户可能系统性地不同于第一周进入的用户。你的处理组构成已经发生了变化;对照组没有——或者变化方式不同。两组不再具有可比性,任何测量到的提升都可能是选择效应的产物。

这个问题还有一种更微妙的形式:AI 输出对上下文敏感。一个在会话内从用户交互中学习的 AI 推荐引擎会随时间改变其展示内容的分布。处理组的用户积累了与对照组不同的交互历史,因此到第二周时,你比较的不是等效用户上的功能——而是被功能本身的曝露差异性塑造的用户。

真正有效的方法

这一切并不意味着你停止测量。而是意味着你使用专为 AI 功能实际特性设计的方法:上下文敏感、自适应、高方差,以及受时变采用动态影响。

排名和推荐功能的交错实验

当你的 AI 功能产生有序列表时——搜索结果、推荐、信息流条目、建议回复——交错实验是正确的工具。与其将用户分配到独立的处理组和对照组,交错实验使用团队选秀算法将两种排名合并到每个用户的单个响应中,交替决定哪个排序器获得优先位置。

由于同一用户同时看到两个模型的结果,用户间方差被完全消除。用户的点击、滚动或预订行为是在相同条件下对两个系统的直接比较。Airbnb 报告称,与传统 A/B 测试相比,实验敏感度提升了 50 倍,使相同流量负载能够检测到否则需要 50 倍用户数量才能发现的效果。

代价是交错实验测量的是即时偏好信号——用户点击什么——而非留存率或收入等下游结果。它是过滤器,而非最终裁决者。实际工作流程是使用交错实验快速淘汰表现不佳的变体,然后对幸存者运行 A/B 测试来测量业务指标。

生成式功能的配对偏好研究

当你的 AI 功能产生自由形式输出——摘要、草稿、答案、解释——时,交错实验不能直接适用。正确的类比是配对偏好评估:向用户并排(或顺序)展示两个版本的输出,询问哪个更好地满足了他们的需求。

配对比较比绝对评分更符合人类判断。研究一致表明,人们在相对比较方面比绝对评分方面表现更好——问"哪个更好?"比问"在 1-7 分中评这个"产生更稳定、更一致的答案。对于 AI 输出,配对比较能揭示用户真正关心的维度:准确性、语气、简洁性、相关性——即使用户事先无法表达他们想要什么。

局限性在于规模。配对研究需要用户明确注意,不像 A/B 测试那样在后台被动运行。最好将其部署为发布前的关卡——使用配对评估来验证模型变更,再决定全量推出,然后使用观测指标来跟踪长期行为。

采用和留存效果的纵向队列分析

对于期望收益是持久行为改变的 AI 功能——生产力提升、任务自动化、决策支持——正确的测量框架是纵向的:跟踪一批用户数周或数月,观察他们在采用后行为和结果的演变。

纵向队列分析能捕捉 A/B 测试所遗漏的内容:初次曝露和成熟使用模式之间的差异。它能区分采用了功能并持续使用的用户与尝试一次后流失的用户。它能检测功能是否改变了用户处理任务的方式,而不仅仅是他们在实验窗口内是否点击了一个按钮。

实践挑战在于纵向分析需要比 A/B 测试更长的时间线和更多耐心。为使其可行,需仔细对队列进行分层:按照用户进入功能的入口(第一天采用者与后期采用者)进行区分,控制使用频率,并在 30 天和 90 天时比较结果,而非对整个观察窗口取平均。AI 写作工具纵向研究中的用户在大约五次使用后才显示稳定行为——大约是一到两周的典型使用量。在此之前测量捕捉的是噪声,而非信号。

实践框架

这三种方法相互补充,而非相互替代。针对中等复杂度 AI 功能的合理方法:

  • 发布前:运行配对偏好研究以验证模型质量并捕捉明显失败模式。
  • 发布时(如果是排名或推荐):使用交错实验快速淘汰表现不佳的变体。让幸存者参加 A/B 测试以测量业务指标。
  • 发布后:在 30 天和 90 天跟踪纵向队列。监控早期参与是否预测留存,以及功能是否在预期方向上改变了用户行为。
  • 全程:通过将首周曝露的用户排除在主要指标之外,或分别分析新用户和回访用户,将新奇效应控制纳入你的 A/B 测试。

诱惑是跳过复杂性,直接运行两周 A/B 测试,因为这是基础设施所支持的。但是,在错误假设下测量错误事物的 A/B 测试会给你一个有把握的错误答案——这比没有答案更糟糕。AI 功能值得与其实际行为相匹配的测量方法论。

根本问题

标准 A/B 测试是在功能是确定性的、用户响应是稳态的、主要方差来源是采样噪声的时代设计的。这三个假设对于 AI 驱动产品的成立程度越来越低。

好消息是该领域已经开发出更适合这些条件的方法——交错实验、配对偏好、纵向队列。坏消息是采用速度滞后,部分原因是这些方法比简单的双样本测试需要更多基础设施投资和更多耐心。

为 AI 功能建立可靠测量的团队将拥有显著优势:他们能更早知道哪些功能真正有效,避免将伪装成胜利的回退发布上线,并积累那种让他们能快速行动而不破坏事物的可信实验历史。这是一种复利优势,而它始于认识到你一直在运行的测试可能并不是你需要的测试。

References:Let's stay in touch and Follow me for more thoughts and updates