跳到主要内容

那个设定了你跑不起的基准的 Demo

· 阅读需 10 分钟
Tian Pan
Software Engineer

演示很顺利。智能体(Agent)回答了那个难题,流畅地串联了四个工具调用,生成的一段文字让全场安静了片刻,直到有人喊出“发布吧”。没人问成本是多少。没人问它运行在哪个模型上,你在成功之前尝试了多少次输入,也没人问当一千个人同时使用它,而不是你周二独自坐在办公桌前时会发生什么。

那场演示刚刚变成了一份契约。不是书面的——而是更糟。它成为了一个隐形的基准线,领导层、销售和客户都会据此来衡量最终发布的产物。而这份契约的条款是由一个你根本负担不起的系统设定的。

演示经济学与生产经济学之间的差距是真实且巨大的,而且在做出承诺之前几乎从未被定价。Gartner 预计到 2027 年,超过 40% 的智能体 AI 项目会因为成本超支而被取消。2026 年 3 月的一项调查发现,78% 的企业已经启动了智能体试点项目,但只有 14% 将其扩展到了全公司范围。试点失败并不是因为技术行不通,而是因为那个行得通的版本从来就不是任何人能够部署的版本。

演示是一份没人阅读的预期契约

当你演示一个智能体时,你展示的不是产品的功能,而是在设定一个参考点。房间里的每个人走出房门时,脑海中都会建立一个锚定在刚才所见之物的心理模型,未来的每一次对话都会与这个锚点进行比较。

问题在于,演示只为一件事做了优化:现场的反应。所以你会选用能找到的最好的模型,因为在演示期间,Token 成本是看不见的。你会选择已经尝试过的输入,因为演示是一场表演,而表演需要排练。你在没有并发负载、没有速率限制的情况下,独自在桌前为一个人运行一次。你向一群希望它成功的观众进行展示,他们会把偶尔的失误谅解为“早期阶段”。

这些条件在进入生产环境时无一幸存,但预期却留了下来。“做得和演示一样好”听起来像是一个质量要求。实际上,这是一个由从未见过发票的人提交的巨额预算申请。演示代表团队签署了一份契约,而团队只有在账单寄到时才会发现条款是什么。

演示悄悄移除了一切

逐层审视演示剥离掉的内容,隐藏的差距就会变得清晰。

模型层级。 演示运行在最尖端的模型上。为什么不呢——单次令人印象深刻的运行所产生的边际成本可以忽略不计。但模型市场的价差是巨大的。到 2026 年,廉价可用模型与顶级尖端模型之间的每 Token 成本差距已达数百倍。一次成本两美分的演示没问题。但同样的调用,在生产规模下,路由到同样的尖端模型,最终会变成某人会在账单上用红圈圈出来的项目。

输入。 演示使用你选择的输入。生产环境使用用户选择的输入。演示数据是干净、格式良好且在智能体擅长处理的分布范围内的。真实流量则是混乱、模糊、具有对抗性的,且充满了你从未演练过的长尾案例。演示展示了精心挑选样本的 P50 表现。而生产环境是包含尾部在内的全量分布。

并发性。 演示一次只有一个请求。生产环境则有数千个请求,伴随着速率限制、排队、重试,以及只有在负载下才会出现的尾部延迟。一个在独自运行时感觉瞬时响应的智能体,在作为众多任务之一时可能会变成反应迟钝的队列。

工具循环。 演示中四次干净的工具调用隐藏了结构性成本。与简单的提示词相比,工具增强型智能体的模型调用次数要多得多——一旦计入重试、反思和错误处理,通常会达到 9 倍或更多。每一步还会增加延迟:5 个连续的推理步骤,每步 200 毫秒,在用户看到任何内容之前,就是整整一秒的复合等待时间。演示展示了一次顺利的路径遍历。生产环境则会运行每一条路径,包括那些无法干净终止的循环。

观众。 演示的观众希望它成功。生产环境的用户希望解决他们的问题,而且不会宽容对待。在会议室里赢得掌声的回复,当它只有 80% 正确而用户需要 100% 时,就会引发一张投诉工单。

把这些堆叠在一起,你就会得到从业者不断重新发现的数字:生产成本通常是试点成本的 4 到 8 倍,对于复杂或受监管的系统,这个差距甚至更大。一个试点通常只花费正式部署成本的 15–25%,却跳过了大约 70% 的难题。对于重度依赖检索的系统,超支情况更严重——据报道,RAG 项目的实际运行成本往往是试点预测成本的数倍。演示不仅仅是低估了成本,它还将成本低估了数倍。

“和演示一样好”是用别人的钱许下的诺言

陷阱就在这里。演示证明了智能体 可以 做得那么好。所以当生产质量较低时,会被视为倒退——就好像团队搞砸了什么。其实并没有。团队只是发现了演示质量的代价,并发现它难以负担。

生产环境会迫使你做出演示中从未展示过的妥协:

  • 模型降级。 你将大部分流量路由到更便宜的模型,并将尖端层级保留给真正需要的请求。中位数请求的质量会下降一个档次。而这个档次正是演示经济学与可持续账单之间的区别。
  • 延迟预算。 你限制工具循环,修剪上下文,并砍掉反思步骤,因为每一步都是金钱和毫秒。在演示中那个“深思熟虑”的智能体,现在思考得更快但也更肤浅。
  • 弃权。 生产环境的智能体必须学会说“我不确定”或移交给人工。演示从未弃权——你不会演示“弃权”。但正是弃权防止了生产环境的智能体在规模化运行时表现出“自信的错误”。

每一项决策都是正确的工程选择。每一项决策都让产品看起来明显比演示逊色。而且因为演示设定了基准线,每一项正确的决定现在看起来都像是在违背诺言。团队耗费着信誉,去为一个从未真实存在过的标准辩护。

这种失败有一个露骨的版本:一个没有成本控制的智能体,每项任务的成本最终可能比雇人做同样工作的费用还要高。演示从未展示这一点,因为演示只是一项任务。而生产环境是一百万项任务,单位经济效益才是游戏的全部。

在生产环境约束下演示,而非理想环境下

解决方法不是停止演示,而是停止演示一个你无法交付的系统。在它变成路线图(roadmap)上的承诺之前,缩小这个差距。

在你实际运行的模型层级上进行演示。 如果生产环境会将中等流量路由到中阶模型,就在那个模型上演示。如果演示因此变弱了,这种弱点本身就是一种信息——现在就把它暴露出来,趁现在还是设计层面的讨论,而不是等到以后变成公信力问题时。

使用未经排练的输入进行演示。 让房间里的某个人输入他们自己的问题。抽取一些真实或现实的查询样本并进行现场运行,包括那些边缘案例(tail cases)。一个能在非你选择的输入下存活的演示,才是有意义的演示。

在负载下演示,或者至少说明缺乏负载的情况。 你可能无法在会议中模拟生产环境的并发量。你可以大声说出来:“这是一个单请求演示;并发情况下的延迟和成本仍是未知数,这是我们目前的估算。”这一句话就将一个未说明的契约转化为了一个明确的假设。

给演示标个价。 展示你刚才运行的成本和延迟。“那个回答花费了 14 美分,耗时 3.2 秒。按照我们在最先进模型(frontier model)上的预期业务量,每月将花费 X。这是在生产层级上的相同查询:2 美分,1.1 秒,回答质量略差。”现在,房间里的人是在真正的选项之间做选择,而不是锚定在一个虚构的选项上。

明确指出演示与生产环境之间的差距。 在任何人说“发布吧”之前,大声说出这个差距:演示是在最好的模型上运行的,使用了选定的输入,没有负载,而且观众很友好;生产环境会改变这四个因素;预计质量会降低,成本会升高;这是我们估算的范围。指出它并不会缩小差距,但它会让差距变成一个共享的、已知量,而不是一个只落在工程团队头上的意外。

你设定的基准就是你欠下的债

演示是一个团队拥有的最强大的预期管理工具,这正是为什么不受限的演示是危险的。赢得掌声的版本定义了所有观众心中“可用”的含义,如果那个版本运行在一种你无法维持的经济模型上,你就是签了一份交付你无法交付之物的合同。

这一准则说起来容易做起来难:永远不要演示一个你不愿意运营的配置。如果演示在最先进模型(frontier model)上运行,你就承诺了最先进模型。如果演示从不拒绝回答任何问题,你就承诺了一个永远不会说“我不知道”的智能体。如果演示是瞬时的,你就承诺了瞬时。演示与可部署系统之间的每一个差距,都是工程团队需要消耗公信力去弥补的差距——而且从外部看来,就像是团队的工作能力变差了一样。

演示你跑得起的项目。一个反映生产现实、稍欠惊艳的演示,其价值远高于一个开出系统无法兑现的支票的惊艳演示。掌声不出一周就会消散。基准则会一直持续,直到有人重新谈判——而重新谈判基准的代价远比设定一个诚实的基准要昂贵得多。

References:Let's stay in touch and Follow me for more thoughts and updates