当“智能体能做 X 吗?”演变为交付承诺时
一个工程师花了一个下午钻研一个问题:智能体 (agent) 能否根据合同条款核对客户的发票?他们编写了一个简单的提示词,在五份真实发票上运行,结果三份是正确的。另外两份的错误方式他们还没完全搞清楚——于是他们关上电脑,继续做别的事。在第二天早上的站会上,他们说:“是的,发票核对基本上能用了。”房间里的 PM 记下了这一点。两周后,它成了 Q3 路线图上的一个项目。一个月后,一位销售代表在续约电话中向一家大客户承诺了这项功能。
没有人撒谎。没有人孤立地做出错误决定。但团队现在已经在合同上承诺了一种行为,而这种行为的评估集 (eval set) 并不存在,其失败模式从未被记录,其可靠性预算是由一位看了演示并将其解读为正式合同的总监设定的。这是 AI 功能获取范围 (scope) 最常见的方式:不是通过规划会议,而是通过一个从未被明确提升地位的能力探索 (capability probe)。
行业对这种下游症状有一个称呼——“POC 炼狱” (POC purgatory),即 70% 到 80% 的 AI 项目在可运行的沙盒和可交付的产品之间停滞不前的状态。但“炼狱”是一个错误的比喻,因为它暗示项目被困住了。它们并没有被困住。它们在移动——在有人检查它们是否准备好之前,它们就被承诺了,现在团队正试图将可靠性强行填补到一个承诺中。
