跳到主要内容

稀疏信号问题:当无法进行 A/B 测试时如何衡量 AI 功能质量

· 阅读需 11 分钟
Tian Pan
Software Engineer

你向企业客户上线了一个 AI 写作助手。每天使用它的人只有二十三个。产品经理在问:新的摘要模型是否真的比旧的更好?距离下一个迭代周期只剩两周,你需要给出一个决定。

于是你想到了 A/B 测试——然后立刻发现数学跑不通。要在 20% 的任务完成率基准上检测出 10% 的相对提升,在 80% 统计功效下,每个实验组大约需要 1,570 名用户。按每天 23 个用户算,你需要 136 天才能积累足够的数据。功能早就被弃用了,实验还没结束。

这就是稀疏信号问题。它并非 B2B 初创公司的特有困境。大多数 AI 功能——即便在成熟产品中——也只有一小部分用户在使用,而且都是执行特定高价值任务的用户。适用于大规模消费者推荐引擎的评估方法,在这种环境下完全失效。接下来,本文将介绍如何构建一套在无法进行 A/B 测试时依然有效的评估体系。

为什么统计功效失效得比你想象的更快

频率论 A/B 测试的核心问题不在于它需要大量数据,而在于所需样本量与你试图检测的效果大小的平方成反比。你想检测的改进幅度减半,所需用户数就要翻四倍。

这种关系恰恰惩罚的是 AI 产品所能交付的那类改进。一个让摘要被接受率提升 8% 的模型——这是实质性的进步,但不是 30% 的进步。而在用户稀少的情况下,30% 往往是数学允许你衡量的最低效果量。

B2B AI 的叠加困境在于:转化事件在本就稀少的用户群中更加稀疏。企业用户不会像电商用户那样每隔几秒就往购物车里加商品。一个企业用户可能每周两次、每次会话生成三次 AI 摘要。每次交互都弥足珍贵,但按这个频率,每位用户每周也只有约六个结果数据点。23 个用户,一周 138 个数据点,而你需要的是数千个。

频率论测试还迫使你只能二选一:要么跑完整测试,要么不信任结果。这种僵化使持续学习成为奢望。每一天的结论性不足,都是一天无法迭代的浪费。

贝叶斯方法:融入你已知的先验知识

贝叶斯 A/B 测试通过允许你将先验知识注入推断过程来解决样本量问题。它不再问"这个变体的表现是否与对照组不同?",而是问"考虑到我们已知的一切,这个变体更好的概率是多少?"

实际收益:在合理的先验下,贝叶斯方法达到相同置信水平所需的数据量比频率论方法少 30–50%。如果你的任务完成率基准约为 20%,历史数据表明改进幅度通常在 5–15% 之间,你就可以将这些知识形式化为 Beta(α, β) 先验,让它发挥作用。先验知识等同于虚拟数据点。

输出的形式和方法本身同样重要。贝叶斯结果告诉你:"新模型优于旧模型的后验概率为 91%。"这是可操作的。频率论 p 值为 0.12 只告诉你继续等待,别无他用。

Thompson 采样更进一步,将评估转化为持续优化。它不运行固定实验,而是对每个变体的表现维护一个后验分布,并从中采样来决定服务哪个变体。看起来更好的变体获得更多流量;不确定性高的变体得到更多探索。没有预设终点——系统自然收敛。仅凭每个变体 10–20 次观测,Thompson 采样就已经能产生有意义的排名信号。

B2B AI 功能的实现很直接:为每个变体维护 Beta(α, β) 后验,其中 α 追踪接受事件,β 追踪拒绝事件。每次用户交互时,从各变体的后验中采样,服务采样值最高的那个,然后用观测结果更新后验。两到三周后,变体 A 优于变体 B 的后验概率通常就足以让你有信心上线。

一个警告:使用弱、无信息先验的贝叶斯方法相对于频率论测试几乎没有优势。收益来自融入你真实的领域知识。如果你认为改进会很小(3–7%),就在先验中这样体现。方向错误的过于自信的先验可能误导你,所以要仔细校准——但不要推卸指定先验的责任。

代理信号:在结果上游进行衡量

当结果指标过于稀疏而无法可靠移动时,就监测结果发生之前的行为。对于 AI 功能,几类代理信号能快速响应并与长期质量良好相关。

输出接受率是生成式 AI 功能最可靠的一线代理指标。如果你在生成摘要、代码或建议,追踪用户接受、大幅修改或直接丢弃的比例。用户将回复直接复制粘贴到工作流中而不加修改——这是强力的认可信号。立即被丢弃的回复——是失败信号。这个指标可以在功能变更后数小时内测量。

接受输出后的编辑深度衡量接受之外的质量。用户接受了摘要但随后花三分钟重写它——获得的价值有限。用户接受后直接继续工作——获得了完整价值。接受后编辑深度的分布是敏感的质量信号——模型的细微改进在此处比在下游结果指标中更早体现。

精化查询率——紧随其后发出澄清性追问的交互比例——表明初始回复不够完整。模型更新后精化率下降通常意味着模型更频繁地在第一次就给出了正确回复。这对于会话式 AI 功能尤其有用,因为交互日志就是你全部的衡量界面。

用户纠错频率适用于采取行动而非仅生成文本的 AI 功能。如果你的 AI 功能填写表单、安排事项或修改文档,追踪用户撤销或手动纠正 AI 行为的频率。这是质量失败的明确信号。

关键的纪律是在信任代理指标之前先验证它。将代理指标与历史功能变更中你真正关心的结果指标对照绘图。如果代理相关性低于 0.6,它就无法可靠地追踪你关心的结果。跨用户细分进行此验证——一个对高频用户有效但对新用户无效的代理,会给你一幅有偏差的图景。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates