跳到主要内容

撒谎的 AI A/B 测试:LLM 实验中的新奇效应、结转偏差与锚定偏差

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的 AI 功能在信心满满中上线了。A/B 测试显示用户参与度有了 12% 的统计学显著提升。置信区间没有重叠。样本量大小合适。p 值远低于 0.05。六周后,指标回落到了基准线。三个月后,它实际上已经低于基准线。实验告诉你该功能有效,但实验撒了谎。

这并不是你统计工具的 bug。这是标准 A/B 测试所测量的指标,与人类随着时间的推移与概率性 AI 系统互动之间存在的根本性错配。三种特定的偏差——新奇效应膨胀、锚定偏差和结转偏差——共同导致了每个 AI 功能实验的虚高,而增加留置组(holdout group)的常规补救措施并不能解决其中的任何一个问题。

新奇效应:为什么前两周的数据毫无用处

每一位经验丰富的产品工程师都知道新奇效应(novelty effect)——这是一种有据可查的倾向,即用户仅仅因为某个界面元素是新的,就会更多地与其互动。较少被意识到的是,这种效应对 AI 功能的影响比对确定性的 UI 变更要严重得多。

当你重新设计一个按钮时,新奇效应会持续几天。当你上线一个新的由 LLM 驱动的回答界面时,它会持续数周,而且影响程度要大得多。一个新的 AI 写作助手可能会产生让用户感到真正新奇的回答:输出内容各异,措辞感觉新鲜,用户对界面的探索会比对静态元素更多。这种探索在你的指标中被解读为参与度。

关键的失败模式:团队运行为期两周的实验,因为这是标准做法。AI 功能的新奇效应通常在第五天左右达到峰值,并在第十四天逐渐减弱——这恰恰是实验运行的窗口期。你测量的是新奇感的峰值,而不是稳态效用(steady-state utility)。

你真正需要知道的是,在新奇感消退、用户进入真实的日常使用模式后,第三周和第四周会发生什么。与直觉相反,一项针对用户长达八个月的跟踪研究发现,一些 AI 功能在最初被强力采用后,随着时间的推移,其使用量会出现显著下降,而信任侵蚀是主要驱动因素。早期的信号完全指向了错误的方向。

解决办法不仅仅是运行更长时间的实验。而是根据用户群组的生命周期阶段(tenure)来细分实验结果:在第一天遇到该功能的用户,到第十四天、第七天、第二十一天时的行为如何?如果在你的实验窗口内,参与度曲线是在下降而不是趋于稳定,那么你看到的是新奇感,而非效用。

锚定偏差:无法通过随机化消除的顺序问题

锚定(Anchoring)是人类认知中最强大的偏差之一:一个人接收到的第一条信息会不成比例地塑造其随后的所有判断。对于 AI 实验,这造成了一种随机化无法修复的特定失败模式。

在标准的 A/B 测试中,每个用户被随机分配到对照组或实验组。逻辑是,如果用户是被随机分配的,任何系统性偏差都将平等地分布在各组中,各组之间的差异仅反映了你的变更所产生的影响。这对于静态 UI 是成立的。但当被评估的对象是概率性的文本输出时,情况就不一样了。

当用户第一次与你的 AI 功能互动时,他们会形成一个关于“AI 回答质量”的基准预期。如果实验组用户碰巧看到 AI 生成了一个特别流畅的首次回答(在使用更新、提示词优化得更好的模型时更可能发生),他们会将质量预期锚定在那个输出上。随后的每一次互动都会根据该锚点进行评判。而看到对照组平庸首次输出的用户,其锚点较低——因此即使是来自实验组的同等输出,在对比下看起来也会更好。

对 LLM 的实证研究发现,即使研究人员指示模型忽略之前的输入,甚至在应用了思维链(chain-of-thought)提示之后,锚定指数仍然具有统计学显著性。思维链并不能减少锚定效应。明确的抗锚定指令也无法减少锚定效应。这种偏差在人类评估场景中会进一步加剧,即用户提供评分或反馈分数,而这正是大多数 AI 质量实验的评估方式。

对实验设计的启示:

  • 不要使用被试内设计(within-subjects designs),即让用户按顺序看到旧的和新的 AI 输出。顺序效应是无法随机化的。
  • 在任何用户直接判断质量的评估研究中,平衡输出顺序:一些用户先看旧的再看新的,另一些用户先看新的再看旧的。
  • 警惕从已有系统长期使用经验的用户那里收集的评估分数——他们的锚点很高。

结转偏差:当对照组被污染时

在这三种偏差中,最隐蔽的是结转偏差(Carryover Bias)——这也是大多数团队完全没有心智模型的一种偏差。

标准的 A/B 测试假设你的对照组和实验组是真正独立的。对于大多数产品实验来说,这是成立的:用户上个月在对照组使用了你的 App,这一事实并不会系统性地污染他们今天在实验中的行为。但 AI 功能以一种特定的方式打破了这一假设。

如果你在过去的六个月里运行过任何 AI 实验,那么你当前对照组中的一些用户就已经接触过某种 AI 实验变体了。他们的期望、交互模式以及对该功能的心智模型都已经受到之前接触的影响。当他们现在与“对照组”(你的基准非 AI 或旧版 AI 行为)交互时,他们是在根据之前实验建立的隐性基准进行评估,而不是你认为你正在衡量的那个基准。

这种情况在以下产品领域最为严重:

  1. 你已经运行过之前的 AI 实验,并且正在重复使用同一用户群体
  2. 产品具有较长的会话历史,这意味着用户已经积累了大量的 AI 交互模式
  3. 你正在对现有的 AI 功能进行细微改进的 A/B 测试,而不是发布全新的功能
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates