1 篇博文含有标签「llm-metrics」

稀疏信号问题：当无法进行 A/B 测试时如何衡量 AI 功能质量

2026年5月8日 · 阅读需 11 分钟

Software Engineer

你向企业客户上线了一个 AI 写作助手。每天使用它的人只有二十三个。产品经理在问：新的摘要模型是否真的比旧的更好？距离下一个迭代周期只剩两周，你需要给出一个决定。

于是你想到了 A/B 测试——然后立刻发现数学跑不通。要在 20% 的任务完成率基准上检测出 10% 的相对提升，在 80% 统计功效下，每个实验组大约需要 1,570 名用户。按每天 23 个用户算，你需要 136 天才能积累足够的数据。功能早就被弃用了，实验还没结束。

这就是稀疏信号问题。它并非 B2B 初创公司的特有困境。大多数 AI 功能——即便在成熟产品中——也只有一小部分用户在使用，而且都是执行特定高价值任务的用户。适用于大规模消费者推荐引擎的评估方法，在这种环境下完全失效。接下来，本文将介绍如何构建一套在无法进行 A/B 测试时依然有效的评估体系。