当两个 AI 功能争夺同一次点击
用户落到一个搜索结果页面。A 团队的智能摘要在顶部横幅里弹出:"这是要点 —— 跳过列表吧。"B 团队的内嵌助手在侧边脉冲跳动:"留在这里,我陪你继续阅读。"两个提示争夺同一段 800 毫秒的注意力,用户被惹烦了,关掉了标签页。第二天早上,A 团队报告摘要点击率提升 6%;B 团队报告助手打开率提升 4%;会议室里没有人是错的,而产品却比一个季度前更糟。
这就是那种"独立功能团队 + 单一功能 A/B 测试"的标准打法看不见的失败模式。每个团队都针对自己的指标做了局部最优。用户 —— 只有一份注意力预算、一份心智模型、一次可以给出的点击 —— 替两个团队都不愿做的整合,买了单。
这个问题的形状并不新。产品蚕食(cannibalization)作为一个组合(portfolio)层面的问题,在零售和定价领域已经被讨论了几十年。新鲜之处在于,AI 功能之间互相蚕食的货币比营收更微妙。它们蚕食的是注意力、意图,以及用户对你产品里任何一个 AI 触面继续信任的意愿。而那些本该把冲突标红的指标,在团队层面根本不存在 —— 因为它们不可能存在于团队层面。
为什么本地 A/B 测试发现不了
A/B 测试本质上是一个处理组和对照组之间的比较,前提是"其他条件保持一致"。这句"其他条件保持一致"承担着大量工作,而当两个 AI 功能上线到互相重叠的触面上时,这句话悄悄就崩了。
A 团队对它的摘要横幅做测试时,对照组没有摘要横幅 —— 但仍然带着 B 团队的内嵌助手。B 团队对它的助手做测试时,对照组没有助手 —— 但仍然带着 A 团队的摘要横幅。两个团队都是在一个本身已经包含了对方功能的背景上衡量自己的功能。每一个测试回答的是一个狭窄的问题:"我的功能在当前产品之上有没有增值?"没有一个测试回答更宏观的问题:"当前产品,和我们其中一个不发布的产品相比,哪个更好?"
存在一种相当现实的可能性 —— 而且实际中很常见 —— 两个功能各自的 A/B 测试都通过了,但组合体验比任何单一功能存在时都更差。这背后的数学并不奇异。如果功能 A 在已经包含功能 B 的基线上带来 +6% 的参与度,而功能 B 在已经包含功能 A 的基线上带来 +4% 的参与度,你不能把这两个数相加。一旦你把另一个功能引入的用户摩擦计算在内,你甚至可能保不住其中任何一个。
那个能发现这一问题的平台级 A/B 测试 —— 四臂测试(都没有、只有 A、只有 B、两个都有)—— 很少有人真的做,因为它需要两个本身没有合作动机的团队互相协调。他们的目标、迭代周期、OKR,乃至 VP,通常都是不同的。
