跳到主要内容

1 篇博文 含有标签「holdouts」

查看所有标签

缺失的实验组:你的 AI 实验缺少 “关闭 AI” 的对照组

· 阅读需 10 分钟
Tian Pan
Software Engineer

看看你的团队最近发布的六份关于 AI 功能的实验报告。实验组都有哪些?很可能你测试的是“新提示词 vs. 旧提示词”、“GPT-5 路由 vs. GPT-4 备选”、“推理模型 vs. 快速模型”或者“有检索 vs. 无检索”。你报告了参与度、任务完成度或会话时长的提升。你称之为产品影响力。一个季度过去了。推理成本不断攀升。没人停下来问一个首席财务官 (CFO) 最终会问的问题:如果这个功能根本不存在,会发生什么?

这个问题就是那个缺失的实验组。你的实验不断衡量的提升是“更好的 AI vs. 较差的 AI”,但支撑你业务的是“AI vs. 什么都没有”——或者更尴尬的是,“AI vs. 我们从未记录下来的三行启发式代码”。这是结论完全不同的两种实验,而 2026 年大多数 AI 产品项目只运行过第一种。第二种实验才能告诉你,该功能是否配得上它的推理账单。