那个设定了你跑不起的基准的 Demo

2026年5月17日 · 阅读需 10 分钟

Software Engineer

演示很顺利。智能体（Agent）回答了那个难题，流畅地串联了四个工具调用，生成的一段文字让全场安静了片刻，直到有人喊出“发布吧”。没人问成本是多少。没人问它运行在哪个模型上，你在成功之前尝试了多少次输入，也没人问当一千个人同时使用它，而不是你周二独自坐在办公桌前时会发生什么。

那场演示刚刚变成了一份契约。不是书面的——而是更糟。它成为了一个隐形的基准线，领导层、销售和客户都会据此来衡量最终发布的产物。而这份契约的条款是由一个你根本负担不起的系统设定的。

演示经济学与生产经济学之间的差距是真实且巨大的，而且在做出承诺之前几乎从未被定价。Gartner 预计到 2027 年，超过 40% 的智能体 AI 项目会因为成本超支而被取消。2026 年 3 月的一项调查发现，78% 的企业已经启动了智能体试点项目，但只有 14% 将其扩展到了全公司范围。试点失败并不是因为技术行不通，而是因为那个行得通的版本从来就不是任何人能够部署的版本。

演示是一份没人阅读的预期契约

当你演示一个智能体时，你展示的不是产品的功能，而是在设定一个参考点。房间里的每个人走出房门时，脑海中都会建立一个锚定在刚才所见之物的心理模型，未来的每一次对话都会与这个锚点进行比较。

问题在于，演示只为一件事做了优化：现场的反应。所以你会选用能找到的最好的模型，因为在演示期间，Token 成本是看不见的。你会选择已经尝试过的输入，因为演示是一场表演，而表演需要排练。你在没有并发负载、没有速率限制的情况下，独自在桌前为一个人运行一次。你向一群希望它成功的观众进行展示，他们会把偶尔的失误谅解为“早期阶段”。

这些条件在进入生产环境时无一幸存，但预期却留了下来。“做得和演示一样好”听起来像是一个质量要求。实际上，这是一个由从未见过发票的人提交的巨额预算申请。演示代表团队签署了一份契约，而团队只有在账单寄到时才会发现条款是什么。

演示悄悄移除了一切

逐层审视演示剥离掉的内容，隐藏的差距就会变得清晰。

模型层级。 演示运行在最尖端的模型上。为什么不呢——单次令人印象深刻的运行所产生的边际成本可以忽略不计。但模型市场的价差是巨大的。到 2026 年，廉价可用模型与顶级尖端模型之间的每 Token 成本差距已达数百倍。一次成本两美分的演示没问题。但同样的调用，在生产规模下，路由到同样的尖端模型，最终会变成某人会在账单上用红圈圈出来的项目。

输入。 演示使用你选择的输入。生产环境使用用户选择的输入。演示数据是干净、格式良好且在智能体擅长处理的分布范围内的。真实流量则是混乱、模糊、具有对抗性的，且充满了你从未演练过的长尾案例。演示展示了精心挑选样本的 P50 表现。而生产环境是包含尾部在内的全量分布。

并发性。 演示一次只有一个请求。生产环境则有数千个请求，伴随着速率限制、排队、重试，以及只有在负载下才会出现的尾部延迟。一个在独自运行时感觉瞬时响应的智能体，在作为众多任务之一时可能会变成反应迟钝的队列。

工具循环。 演示中四次干净的工具调用隐藏了结构性成本。与简单的提示词相比，工具增强型智能体的模型调用次数要多得多——一旦计入重试、反思和错误处理，通常会达到 9 倍或更多。每一步还会增加延迟：5 个连续的推理步骤，每步 200 毫秒，在用户看到任何内容之前，就是整整一秒的复合等待时间。演示展示了一次顺利的路径遍历。生产环境则会运行每一条路径，包括那些无法干净终止的循环。

观众。 演示的观众希望它成功。生产环境的用户希望解决他们的问题，而且不会宽容对待。在会议室里赢得掌声的回复，当它只有 80% 正确而用户需要 100% 时，就会引发一张投诉工单。

把这些堆叠在一起，你就会得到从业者不断重新发现的数字：生产成本通常是试点成本的 4 到 8 倍，对于复杂或受监管的系统，这个差距甚至更大。一个试点通常只花费正式部署成本的 15–25%，却跳过了大约 70% 的难题。对于重度依赖检索的系统，超支情况更严重——据报道，RAG 项目的实际运行成本往往是试点预测成本的数倍。演示不仅仅是低估了成本，它还将成本低估了数倍。

“和演示一样好”是用别人的钱许下的诺言

陷阱就在这里。演示证明了智能体可以做得那么好。所以当生产质量较低时，会被视为倒退——就好像团队搞砸了什么。其实并没有。团队只是发现了演示质量的代价，并发现它难以负担。

生产环境会迫使你做出演示中从未展示过的妥协：

模型降级。 你将大部分流量路由到更便宜的模型，并将尖端层级保留给真正需要的请求。中位数请求的质量会下降一个档次。而这个档次正是演示经济学与可持续账单之间的区别。
延迟预算。 你限制工具循环，修剪上下文，并砍掉反思步骤，因为每一步都是金钱和毫秒。在演示中那个“深思熟虑”的智能体，现在思考得更快但也更肤浅。
弃权。 生产环境的智能体必须学会说“我不确定”或移交给人工。演示从未弃权——你不会演示“弃权”。但正是弃权防止了生产环境的智能体在规模化运行时表现出“自信的错误”。

每一项决策都是正确的工程选择。每一项决策都让产品看起来明显比演示逊色。而且因为演示设定了基准线，每一项正确的决定现在看起来都像是在违背诺言。团队耗费着信誉，去为一个从未真实存在过的标准辩护。

这种失败有一个露骨的版本：一个没有成本控制的智能体，每项任务的成本最终可能比雇人做同样工作的费用还要高。演示从未展示这一点，因为演示只是一项任务。而生产环境是一百万项任务，单位经济效益才是游戏的全部。

在生产环境约束下演示，而非理想环境下

解决方法不是停止演示，而是停止演示一个你无法交付的系统。在它变成路线图（roadmap）上的承诺之前，缩小这个差距。

在你实际运行的模型层级上进行演示。 如果生产环境会将中等流量路由到中阶模型，就在那个模型上演示。如果演示因此变弱了，这种弱点本身就是一种信息——现在就把它暴露出来，趁现在还是设计层面的讨论，而不是等到以后变成公信力问题时。

使用未经排练的输入进行演示。 让房间里的某个人输入他们自己的问题。抽取一些真实或现实的查询样本并进行现场运行，包括那些边缘案例（tail cases）。一个能在非你选择的输入下存活的演示，才是有意义的演示。

在负载下演示，或者至少说明缺乏负载的情况。 你可能无法在会议中模拟生产环境的并发量。你可以大声说出来：“这是一个单请求演示；并发情况下的延迟和成本仍是未知数，这是我们目前的估算。”这一句话就将一个未说明的契约转化为了一个明确的假设。

给演示标个价。 展示你刚才运行的成本和延迟。“那个回答花费了 14 美分，耗时 3.2 秒。按照我们在最先进模型（frontier model）上的预期业务量，每月将花费 X。这是在生产层级上的相同查询：2 美分，1.1 秒，回答质量略差。”现在，房间里的人是在真正的选项之间做选择，而不是锚定在一个虚构的选项上。

明确指出演示与生产环境之间的差距。 在任何人说“发布吧”之前，大声说出这个差距：演示是在最好的模型上运行的，使用了选定的输入，没有负载，而且观众很友好；生产环境会改变这四个因素；预计质量会降低，成本会升高；这是我们估算的范围。指出它并不会缩小差距，但它会让差距变成一个共享的、已知量，而不是一个只落在工程团队头上的意外。

你设定的基准就是你欠下的债

演示是一个团队拥有的最强大的预期管理工具，这正是为什么不受限的演示是危险的。赢得掌声的版本定义了所有观众心中“可用”的含义，如果那个版本运行在一种你无法维持的经济模型上，你就是签了一份交付你无法交付之物的合同。

这一准则说起来容易做起来难：永远不要演示一个你不愿意运营的配置。如果演示在最先进模型（frontier model）上运行，你就承诺了最先进模型。如果演示从不拒绝回答任何问题，你就承诺了一个永远不会说“我不知道”的智能体。如果演示是瞬时的，你就承诺了瞬时。演示与可部署系统之间的每一个差距，都是工程团队需要消耗公信力去弥补的差距——而且从外部看来，就像是团队的工作能力变差了一样。

演示你跑得起的项目。一个反映生产现实、稍欠惊艳的演示，其价值远高于一个开出系统无法兑现的支票的惊艳演示。掌声不出一周就会消散。基准则会一直持续，直到有人重新谈判——而重新谈判基准的代价远比设定一个诚实的基准要昂贵得多。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

那个设定了你跑不起的基准的 Demo

演示是一份没人阅读的预期契约

演示悄悄移除了一切

“和演示一样好”是用别人的钱许下的诺言

在生产环境约束下演示，而非理想环境下

你设定的基准就是你欠下的债

Recommended Reading

关于 Tian Pan

演示是一份没人阅读的预期契约​

演示悄悄移除了一切​

“和演示一样好”是用别人的钱许下的诺言​

在生产环境约束下演示，而非理想环境下​

你设定的基准就是你欠下的债​

Recommended Reading

关于 Tian Pan

演示是一份没人阅读的预期契约

演示悄悄移除了一切

“和演示一样好”是用别人的钱许下的诺言

在生产环境约束下演示，而非理想环境下

你设定的基准就是你欠下的债