撒谎的 AI A/B 测试：LLM 实验中的新奇效应、结转偏差与锚定偏差

2026年5月7日 · 阅读需 12 分钟

Software Engineer

你的 AI 功能在信心满满中上线了。A/B 测试显示用户参与度有了 12% 的统计学显著提升。置信区间没有重叠。样本量大小合适。p 值远低于 0.05。六周后，指标回落到了基准线。三个月后，它实际上已经低于基准线。实验告诉你该功能有效，但实验撒了谎。

这并不是你统计工具的 bug。这是标准 A/B 测试所测量的指标，与人类随着时间的推移与概率性 AI 系统互动之间存在的根本性错配。三种特定的偏差——新奇效应膨胀、锚定偏差和结转偏差——共同导致了每个 AI 功能实验的虚高，而增加留置组（holdout group）的常规补救措施并不能解决其中的任何一个问题。

新奇效应：为什么前两周的数据毫无用处

每一位经验丰富的产品工程师都知道新奇效应（novelty effect）——这是一种有据可查的倾向，即用户仅仅因为某个界面元素是新的，就会更多地与其互动。较少被意识到的是，这种效应对 AI 功能的影响比对确定性的 UI 变更要严重得多。

当你重新设计一个按钮时，新奇效应会持续几天。当你上线一个新的由 LLM 驱动的回答界面时，它会持续数周，而且影响程度要大得多。一个新的 AI 写作助手可能会产生让用户感到真正新奇的回答：输出内容各异，措辞感觉新鲜，用户对界面的探索会比对静态元素更多。这种探索在你的指标中被解读为参与度。

关键的失败模式：团队运行为期两周的实验，因为这是标准做法。AI 功能的新奇效应通常在第五天左右达到峰值，并在第十四天逐渐减弱——这恰恰是实验运行的窗口期。你测量的是新奇感的峰值，而不是稳态效用（steady-state utility）。

你真正需要知道的是，在新奇感消退、用户进入真实的日常使用模式后，第三周和第四周会发生什么。与直觉相反，一项针对用户长达八个月的跟踪研究发现，一些 AI 功能在最初被强力采用后，随着时间的推移，其使用量会出现显著下降，而信任侵蚀是主要驱动因素。早期的信号完全指向了错误的方向。

解决办法不仅仅是运行更长时间的实验。而是根据用户群组的生命周期阶段（tenure）来细分实验结果：在第一天遇到该功能的用户，到第十四天、第七天、第二十一天时的行为如何？如果在你的实验窗口内，参与度曲线是在下降而不是趋于稳定，那么你看到的是新奇感，而非效用。

锚定偏差：无法通过随机化消除的顺序问题

锚定（Anchoring）是人类认知中最强大的偏差之一：一个人接收到的第一条信息会不成比例地塑造其随后的所有判断。对于 AI 实验，这造成了一种随机化无法修复的特定失败模式。

在标准的 A/B 测试中，每个用户被随机分配到对照组或实验组。逻辑是，如果用户是被随机分配的，任何系统性偏差都将平等地分布在各组中，各组之间的差异仅反映了你的变更所产生的影响。这对于静态 UI 是成立的。但当被评估的对象是概率性的文本输出时，情况就不一样了。

当用户第一次与你的 AI 功能互动时，他们会形成一个关于“AI 回答质量”的基准预期。如果实验组用户碰巧看到 AI 生成了一个特别流畅的首次回答（在使用更新、提示词优化得更好的模型时更可能发生），他们会将质量预期锚定在那个输出上。随后的每一次互动都会根据该锚点进行评判。而看到对照组平庸首次输出的用户，其锚点较低——因此即使是来自实验组的同等输出，在对比下看起来也会更好。

对 LLM 的实证研究发现，即使研究人员指示模型忽略之前的输入，甚至在应用了思维链（chain-of-thought）提示之后，锚定指数仍然具有统计学显著性。思维链并不能减少锚定效应。明确的抗锚定指令也无法减少锚定效应。这种偏差在人类评估场景中会进一步加剧，即用户提供评分或反馈分数，而这正是大多数 AI 质量实验的评估方式。

对实验设计的启示：

不要使用被试内设计（within-subjects designs），即让用户按顺序看到旧的和新的 AI 输出。顺序效应是无法随机化的。
在任何用户直接判断质量的评估研究中，平衡输出顺序：一些用户先看旧的再看新的，另一些用户先看新的再看旧的。
警惕从已有系统长期使用经验的用户那里收集的评估分数——他们的锚点很高。

结转偏差：当对照组被污染时

在这三种偏差中，最隐蔽的是结转偏差（Carryover Bias）——这也是大多数团队完全没有心智模型的一种偏差。

标准的 A/B 测试假设你的对照组和实验组是真正独立的。对于大多数产品实验来说，这是成立的：用户上个月在对照组使用了你的 App，这一事实并不会系统性地污染他们今天在实验中的行为。但 AI 功能以一种特定的方式打破了这一假设。

如果你在过去的六个月里运行过任何 AI 实验，那么你当前对照组中的一些用户就已经接触过某种 AI 实验变体了。他们的期望、交互模式以及对该功能的心智模型都已经受到之前接触的影响。当他们现在与“对照组”（你的基准非 AI 或旧版 AI 行为）交互时，他们是在根据之前实验建立的隐性基准进行评估，而不是你认为你正在衡量的那个基准。

这种情况在以下产品领域最为严重：

你已经运行过之前的 AI 实验，并且正在重复使用同一用户群体
产品具有较长的会话历史，这意味着用户已经积累了大量的 AI 交互模式
你正在对现有的 AI 功能进行细微改进的 A/B 测试，而不是发布全新的功能

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

撒谎的 AI A/B 测试：LLM 实验中的新奇效应、结转偏差与锚定偏差

新奇效应：为什么前两周的数据毫无用处

锚定偏差：无法通过随机化消除的顺序问题

结转偏差：当对照组被污染时

Recommended Reading

关于 Tian Pan

新奇效应：为什么前两周的数据毫无用处​

锚定偏差：无法通过随机化消除的顺序问题​

结转偏差：当对照组被污染时​

Recommended Reading

关于 Tian Pan

新奇效应：为什么前两周的数据毫无用处

锚定偏差：无法通过随机化消除的顺序问题

结转偏差：当对照组被污染时