2 篇博文含有标签「causal-inference」

你的模型已经学会通过可见输入预测的那个功能开关

2026年6月2日 · 阅读需 11 分钟

Software Engineer

实验组之所以上线，是因为仪表盘显示“转化率 +4%，p < 0.01，n = 2.3M”。但在全球推行 6 周后，这一增长消失了。由于没有其他合理解释，团队将这次复盘报告归类为“规模效应”。然而，真正的原罪一直潜伏在提示词组装器（prompt assembler）中：决定实验分组的路由哈希（routing hash）派生自一个用户层级（user-tier）属性，而三行代码后，同样的属性被插值到了提示词模板中。模型直接在带内（in band）读取了分组分配。所谓的“实验干预”（treatment）并非提示词的改变，真正的干预是提示词改变后所吸引的用户群体。

这是一种在团队从 Web 时代继承的实验手册中并不存在的失效模式。按钮颜色不会读取用户层级并决定表现不同，但提示词会。一旦你的实验干预是一个由模型解释的字符串，那么任何触及路由决策且同时触及提示词的输入，都会变成实验无法关闭的后门。

为什么 AI 功能会让 A/B 测试失效（以及不会撒谎的因果推断方法）

2026年5月7日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你上线了一个 AI 功能，运行了一次干净的两周 A/B 测试，看到参与度提升了 4%，然后宣告成功。六个月后，功能全量发布，参与度却持平甚至下滑。测试结果不是因为噪声——而是根本就在衡量错误的东西。

A/B 测试建立在一个假设之上：实验组和对照组的用户在统计上是相互独立的。而 AI 功能会系统性地打破这一假设。用户相互交流、从彼此的行为中学习，并共享 AI 工具的输出结果。当真正的机制是长期的行为适应时，两周内处理效应并不会趋于稳定。忽视这一点，你的实验会给出一个内部自洽却因果无意义的数字。

关于 Tian Pan