撒谎的 AI A/B 测试:LLM 实验中的新奇效应、结转偏差与锚定偏差
你的 AI 功能在信心满满中上线了。A/B 测试显示用户参与度有了 12% 的统计学显著提升。置信区间没有重叠。样本量大小合适。p 值远低于 0.05。六周后,指标回落到了基准线。三个月后,它实际上已经低于基准线。实验告诉你该功能有效,但实验撒了谎。
这并不是你统计工具的 bug。这是标准 A/B 测试所测量的指标,与人类随着时间的推移与概率性 AI 系统互动之间存在的根本性错配。三种特定的偏差——新奇效应膨胀、锚定偏差和结转偏差——共同导致了每个 AI 功能实验的虚高,而增加留置组(holdout group)的常规补救措施并不能解决其中的任何一个问题。
新奇效应:为什么前两周的数据毫无用处
每一位经验丰富的 产品工程师都知道新奇效应(novelty effect)——这是一种有据可查的倾向,即用户仅仅因为某个界面元素是新的,就会更多地与其互动。较少被意识到的是,这种效应对 AI 功能的影响比对确定性的 UI 变更要严重得多。
当你重新设计一个按钮时,新奇效应会持续几天。当你上线一个新的由 LLM 驱动的回答界面时,它会持续数周,而且影响程度要大得多。一个新的 AI 写作助手可能会产生让用户感到真正新奇的回答:输出内容各异,措辞感觉新鲜,用户对界面的探索会比对静态元素更多。这种探索在你的指标中被解读为参与度。
关键的失败模式:团队运行为期两周的实验,因为这是标准做法。AI 功能的新奇效应通常在第五天左右达到峰值,并在第十四天逐渐减弱——这恰恰是实验运行的窗口期。你测量的是新奇感的峰值,而不是稳态效用(steady-state utility)。
你真正需要知道的是,在新奇感消退、用户进入真实的日常使用模式后,第三周和第四周会发生什么。与直觉相反,一项针对用户长达八个月的跟踪研究发现,一些 AI 功能在最初被强力采用后,随着时间的推移,其使用量会出现显著下降,而信任侵蚀是主要驱动因素。早期的信号完全指向了错误的方向。
解决办法不仅仅是运行更长时间的实验。而是根据用户群组的生命周期阶段(tenure)来细分实验结果:在第一天遇到该功能的用户,到第十四天、第七天、第二十一天时的行为如何?如果在你的实验窗口内,参与度曲线是在下降而不是趋于稳定,那么你看到的是新奇感,而非效用。
