1 篇博文含有标签「holdouts」

缺失的实验组：你的 AI 实验缺少 “关闭 AI” 的对照组

2026年4月23日 · 阅读需 10 分钟

Software Engineer

看看你的团队最近发布的六份关于 AI 功能的实验报告。实验组都有哪些？很可能你测试的是“新提示词 vs. 旧提示词”、“GPT-5 路由 vs. GPT-4 备选”、“推理模型 vs. 快速模型”或者“有检索 vs. 无检索”。你报告了参与度、任务完成度或会话时长的提升。你称之为产品影响力。一个季度过去了。推理成本不断攀升。没人停下来问一个首席财务官 (CFO) 最终会问的问题：如果这个功能根本不存在，会发生什么？

这个问题就是那个缺失的实验组。你的实验不断衡量的提升是“更好的 AI vs. 较差的 AI”，但支撑你业务的是“AI vs. 什么都没有”——或者更尴尬的是，“AI vs. 我们从未记录下来的三行启发式代码”。这是结论完全不同的两种实验，而 2026 年大多数 AI 产品项目只运行过第一种。第二种实验才能告诉你，该功能是否配得上它的推理账单。

关于 Tian Pan