当处理方案不确定时如何对 AI 功能进行 A/B 测试

2026年4月19日 · 阅读需 12 分钟

Software Engineer

你的团队上线了一个基于 LLM 的新功能，进行了为期两周的干净 A/B 测试，并看到了具有统计显著性的提升。你将其全量发布。三周后，留存指标毫无变化，客服工单却在攀升。究竟哪里出了问题？你用教科书式的实验方法去测试了一个不符合教科书假设的处理方案——"处理方案是稳定的"这一前提，在无声无息中已然被打破。

标准 A/B 测试是为确定性或近确定性的处理方案而设计的：按钮颜色变更、参数固定的排序算法、结账流程。而 LLM 功能几乎违反了使经典频率派实验可靠的所有假设。处理方案的方差很高，处理方案本身会因服务商推送模型更新而在实验进行中途发生变化，"成功"难以被清晰量化，而且新鲜感效应足够强烈，足以产生在用户适应后就烟消云散的实验结果。

本文将介绍在这些挑战下使实验仍然有效的调整方法。

为什么 LLM 会让经典 A/B 测试失效

问题始于非确定性。即便将温度设置为 0，推理内核也无法保证对相同输入产生相同的输出。当服务器负载改变批大小时，RMSNorm 和矩阵乘法等操作会对相同输入产生数值上不同的结果。从实证数据来看，对同一模型使用相同提示词进行重复调用，准确率的偏差最高可达 15%——而在某些任务中，最好和最差结果之间的差距接近 70%。温度并非工程师所以为的那个方差调节旋钮。

第二个问题是处理方案漂移。LLM 服务商会持续更新模型，而版本保证往往与你的实验窗口期不相匹配。如果你的对照组是"旧模型"，处理组是"旧模型上的新提示词"，但服务商在你两周实验的第三天悄悄推送了一个补丁，那么你的处理方案已不再是随机化时的那个版本。这不是理论上的担忧——它是经过记录的结果混淆来源。

第三个问题是指标量化。对于 UI 实验，"用户是否点击了？"是一个干净的二元结果。对于 LLM 功能，"AI 是否有所帮助？"则充满争议。点赞评分稀少且受礼貌性偏差影响。参与度指标（用户是否继续互动？）将有帮助性与新鲜感混为一谈。任务完成情况有意义，但在大多数团队启动实验之前，往往尚未具备衡量它所需的埋点能力。

方差缩减不是可选项

你能对 LLM 实验设计做出的最具影响力的改变，就是应用 CUPED（基于实验前数据的受控实验）或同等效果的方差缩减技术。其核心思想是：收集每个用户在实验前的指标，然后减去实验后方差中可由该基线预测的部分。

公式很直接。对每个用户，计算：

Y_cuped = Y_post - θ × (X_pre - mean(X_pre))

其中 θ 是实验前后结果之间的回归系数。所得的方差缩减为 Var(Y) × (1 - ρ²)，其中 ρ 是实验前后时期之间的相关系数。在实践中，CUPED 在会话时长、每单商品数、每用户收入等业务指标上，通常能实现 20–40% 的方差缩减。

对于 LLM 功能而言，CUPED 的价值更为突出，因为 LLM 输出的方差会叠加在用户行为方差之上。如果你的处理指标是"每次会话的任务完成率"，而 LLM 输出在每次调用间的差异高达 15%，这一方差就会传导到你实验的标准误差中，从而抬高最小可检测效应量（MDE）。CUPED 处理的是用户行为层面的方差；而降低单次调用方差则要攻克 LLM 层面的方差。

为了降低单次调用方差，在评估时对每个提示词运行 3–5 次并对分数取平均值。这听起来代价高昂，的确如此——但对于在正式运行线上实验之前进行的离线评估和指标校准而言，这是估计真实效应大小（而非嘈杂样本）最可靠的方法。在线上实验中，取平均值并不总是可行，这使得正确获取实验前协变量变得更加重要。

CUPED 有两个硬性前提：至少两周的实验前数据，以及实验前后结果之间的强相关性。它不适用于新用户或没有历史规律的指标。对于这些情况，按用户群体进行分层（高活用户与新用户、移动端与桌面端）是备选方案——单独分析，而不是让高方差群体主导你的汇总结果。

在随机化之前定义指标

"在查看数据之前定义成功指标"这一标准准则，对 LLM 实验尤为重要——在这里，事后挑选指标的诱惑极大，而分叉路径的迷宫也格外宽广。

有效指标的层级体系如下：

下游业务结果是最可信赖的。LLM 功能是否带动了转化、购买或订阅续费？这类结果难以被新鲜感效应所伪造，也不易受输出质量争议的影响。缺点是敏感度低——你需要大样本量和较长的观察窗口才能检测到有意义的提升。

行为代理指标居于中间层。编辑率（用户是接受还是修改了输出？）、重试率（他们是否重新生成了内容？）、复制率以及下游点击率，反映的都是用户的实际偏好，而非口头偏好。它们比业务结果更敏感，也比显式评分更难被操纵。在启动实验之前就要完成这些指标的埋点。

质量评分是噪音最大的信号。点赞率受积极性偏差影响，而显式评分的用户也不能代表未评分的用户。将评分作为补充诊断指标使用，而非作为主要指标。

避免使用混合多个质量维度的合成分数，除非你已在历史数据上验证了权重方案。以"质量分"作为主要实验指标，通常意味着实验结束后大家争论不休，而非推动实际决策的有效信号。

处理实验进行中的模型更新

如果你的 LLM 服务商在实验窗口期内更新了模型，你有几种应对方案。最干净的做法是将其视为实验设计失败——如果服务商支持版本锁定，则用锁定版本的模型重启实验，并在此后将模型版本纳入实验参数。

如果重启不可行，则在日志中记录每次推理调用所用的模型版本，然后进行双重差分分析：分别比较更新前后处理组与对照组的差异。如果该更新对两组的影响相同，双重差分估计仍然有效。如果更新对处理组和对照组的影响不同（例如，该更新与你的提示词策略存在特别相关性），则实验已被混淆，你应当放弃这次实验。

这一操作层面的含义是：在生产系统中，即便没有运行实验，也要始终记录每次用户请求所对应的模型版本。这能将一个不可逆的混淆因素，转化为一个可通过分析挽救的问题。

序贯检验：提前停止，但不出错

在 LLM 功能实验中，一个常见的压力来源是成本。实验规模下的 LLM 推理代价高昂，团队希望在结果看起来已有定论时尽早停止实验。问题在于，如果你偷看结果并在 p < 0.05 时停止，标准频率派检验是无效的——这样做会将你的假阳性率推高到远超名义显著性水平 alpha 的程度。

始终有效的 p 值（也称为随时有效推断）解决了这一问题。该方法用序贯统计量取代了传统假设检验，无论你何时查看，统计量都保持有效。你可以持续监控实验，在任一方向出现强有力证据时提前停止，并在整个过程中保持置信区间的有效性。代价是与相同最终样本量下的固定样本检验相比，统计效力略有下降——但当推理成本是真实约束时，这一权衡几乎总是值得的。

多个大规模 A/B 测试平台已将始终有效推断作为其默认方法。如果你正在为 LLM 功能构建实验基础设施，这应该是你的基准方案，而非事后补救。

用于排序与检索的交错实验

如果你的 LLM 功能是排序或检索系统——对搜索结果重新排序、个性化内容流或对推荐结果排序——则在提交全量 A/B 测试之前，可以考虑使用交错实验（interleaving）。

交错实验在同一次用户会话中向同一用户同时呈现对照组和处理组的结果，并通过下游用户行为（点击、停留时长、转化）来判断用户隐式偏好哪个排序模型。由于用户充当了自身的对照，交错实验所需的流量远少于全量 A/B 测试就能达到统计显著性。Airbnb 实验团队记录了与传统 A/B 测试相比 50 倍的速度提升，方向一致性达到 82%。

这一局限性很重要：交错实验告诉你的是用户相对于另一个排序模型更偏好哪一个，而非部署其中一个模型所带来的绝对业务影响。将其作为加速门控——如果交错实验显示出明确的赢家，再进行 A/B 测试以衡量绝对影响。如果交错实验结果不明朗，跳过 A/B 测试并继续迭代。

新鲜感效应问题

LLM 功能会产生强烈的新鲜感效应。用户在第一周以更高的频率与新的 AI 功能互动，仅仅是因为它是新鲜事物，而不是因为它有用。这种效应会衰减，有时在初始热情过后甚至会跌破基准线。

两周的实验窗口往往不足以区分真实提升与新鲜感。实际建议如下：

对于正式功能，实验时长至少为三到四周。
按首次曝光后的天数进行细分分析。如果你的提升集中在第 1–3 天的互动中，而之后趋于平稳甚至为负，那你看到的是新鲜感效应，而非功能改善。
将新用户（没有新鲜感基线）与回访用户分开分析。新用户的互动模式总会看起来像新鲜感；将他们混入处理效应估计中会掩盖已有用户群体的真实情况。
如果新鲜感效应显著，则预先登记一个计划好的逐周处理效应衰减分析。如果处理效应是真实的，随着用户熟悉该功能，它应当保持稳定或增长。如果它单调衰减，则需持怀疑态度。

成熟的 LLM 实验技术栈是什么样的

综合以上各点，一套稳健的 LLM 功能实验方法需要以下要素：

版本化的模型快照或按调用记录模型版本，以防模型更新在无声无息中混淆实验。
实验前指标收集（至少两周），覆盖你关心的每个用户级指标，以支持 CUPED 方差缩减。
行为埋点（编辑率、重试率、复制率、下游点击）在实验启动前完成部署，而非事后补加。
始终有效推断作为统计方法，使团队能够监控结果、提前停止，同时不抬高假阳性率。
新鲜感效应分析作为标准的实验后检查——按首次曝光后天数划分的处理效应，应当成为每份实验报告的标配内容。
交错实验作为排序和检索功能在进入全量 A/B 测试验证之前的快速初筛门控。

这些都不是冷僻的技术。它们都是大规模实验团队在传统产品场景中沿用多年的方法。LLM 特有的适配在于认识到方差预算要紧得多——非确定性输出和嘈杂的指标，意味着关于稳定、低方差处理方案的经典假设已不再成立。相应调整，你的实验就能告诉你真相。

能够严格运行 LLM 实验的团队，会交付出更好的功能。不是因为他们更保守，而是因为他们真的能分辨出真实效应与噪音的区别——并有信心据此行动。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

当处理方案不确定时如何对 AI 功能进行 A/B 测试

为什么 LLM 会让经典 A/B 测试失效

方差缩减不是可选项

在随机化之前定义指标

处理实验进行中的模型更新

序贯检验：提前停止，但不出错

用于排序与检索的交错实验

新鲜感效应问题

成熟的 LLM 实验技术栈是什么样的

Recommended Reading

关于 Tian Pan

为什么 LLM 会让经典 A/B 测试失效​

方差缩减不是可选项​

在随机化之前定义指标​

处理实验进行中的模型更新​

序贯检验：提前停止，但不出错​

用于排序与检索的交错实验​

新鲜感效应问题​

成熟的 LLM 实验技术栈是什么样的​

Recommended Reading

关于 Tian Pan

为什么 LLM 会让经典 A/B 测试失效

方差缩减不是可选项

在随机化之前定义指标

处理实验进行中的模型更新

序贯检验：提前停止，但不出错

用于排序与检索的交错实验

新鲜感效应问题

成熟的 LLM 实验技术栈是什么样的