跳到主要内容

平庸 AI 宣言:为什么单个提示词的表现优于你的自主智能体

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个令人不安的事实:80% 的 AI 项目未能提供业务价值,但团队却一直在追求最复杂的解决方案。一个具备工具调用、记忆检索和自主规划的多 Agent 编排系统可以做一个引人入胜的演示。而一个将客户支持工单路由到正确队列的简单 Prompt,在第一年就能为你公司赚到 200 万美元。这两种结果的可能性并不相等,普遍程度也不同,而行业一直在做出错误的选择。

这种模式是可预测的。一个工程团队构建了一些令人印象深刻的东西,向领导层演示,获得发布批准——然后眼睁睁地看着它在生产环境中悄无声息地退化。与此同时,竞争对手悄悄部署了一个封装了分类器的两百行 Python 脚本,从未进行过演示,却在每一项重要的业务指标上都超越了他们。

没人算的数学题

多 Agent 系统存在复合可靠性问题,一旦你写下来就很明显了,但几乎没人在发布前真正去计算。

如果 Agent 流水线中的每个步骤成功率为 95% ——这对于大多数生产环境中的 AI 系统来说已经很乐观了——那么一个两步的工作流成功率为 90%。一个五步的工作流成功率为 77%。一个十步的工作流在任何给定的运行中只有 60% 的成功机会。如果将每步错误率提高到 15% ——这大约是许多生产环境 Agent 工作流在实践中达到的水平——一个十步的工作流在五次运行中只能提供一次正确的结果。

没有人会容忍数据库查询或支付处理器只有 20% 的成功率。但“Agent 有时会跑偏”却被视为可以接受的业务成本,因为成功的运行看起来非常令人印象深刻。

单个 Prompt 的替代方案没有这个问题。一次 LLM 调用,一个输入,一个结构化输出。没有级联故障,没有中间状态损坏,也没有因为 Token 累积导致的 Prompt 漂移。它要么有效,要么无效,而当它无效时,你会立即知道。

“无聊 AI” 究竟是什么样子

那些提供最高投资回报率记录的应用都有一个共同的特征:范围狭窄、输入可预测、输出可衡量,并且对幻觉动作零容忍。

支持工单路由是一个典型的例子。一个对进入工单进行分类并将其路由到正确团队的 AI 分流系统,其准确率可以达到 89%,而手动路由的准确率为 60-70%,这使工单重新分配减少了一半以上,并在第一年提供 41% 左右的 ROI,到第三年达到 124%。这不是一个戏剧性的转型故事。这是一个具有明确定义输入和输出的分类功能。

文档提取在每投入一美元所产生的价值方面可能更高。将非结构化的 PDF、扫描表单和发票转换为结构化数据在技术上已经可行多年,但对于全自动工作流来说,错误率此前太高了。现代语言模型可以将准确率提高到 99%,这跨越了自动处理取代人工审核大多数文档的门槛。在监管严格的行业——保险、银行、生命科学——这消除了每年耗资数百万美元的整个外包关系。

电子邮件分类和意图检测遵循同样的模式。将保修索赔路由到正确的履行队列。标记合同问题供法律审查。识别有流失风险的客户以进行主动接触。这些都不需要自主 Agent。它们需要一个编写良好的分类器 Prompt 和一个路由表。

主线是:这些应用之所以有价值,是因为它们针对目前人类处理缓慢且不一致的结构化决策进行大规模运作。AI 不需要深度推理。它需要大部分时间是正确的,并且在出错时是可以恢复的。

为什么团队会构建错误的东西

如果“无聊 AI”产生更好的回报,为什么工程团队会系统性地选择复杂的 AI?答案并不是工程师做出了不理性的决定,而是他们对眼前的激励机制做出了理性反应。

演示的深刻印象驱动了组织的认可。一个能够计划、检索信息、使用工具、反思输出并生成详细多步推理轨迹的系统,在视觉上是在“做事”。而一个从小型分类体系中返回标签的分类器看起来微不足道——即使它每天处理 50,000 个工单并省去了大量的体力劳动。发布 Agent 演示的团队获得了预算,而维护分类器的团队则被视为理所当然。

创新激励机制加剧了这一点。组织为“成功试点新的 AI 解决方案”分配 AI 算力额度。衡量指标是新功能的采用和部署,而不是交付的业务价值。构建了一个三 Agent 编排系统并带有向量存储和工具使用的团队,比在现有分流工作流中添加了一个 LLM 调用的团队,更容易声称自己完成了 AI 试点。

职业激励也指向同一方向。在简历上,发布一个带有 RAG 后端的多 Agent 系统比悄悄优化一个路由客户电子邮件的 Prompt 更好看。新颖的架构作为一项成就是显而易见的,而静悄悄的运营改进则是无形的。

结果形成了一个全行业的模式:团队针对演示效果和组织可见性进行优化,而 ROI 却始终流向最小、最可靠的集成方案。

复杂性的隐性成本

自主智能体系统不仅表现不佳 —— 它们还会产生无形中累积的成本,直到演变成危机。

以 2025 年末一家市场调研公司发生的事情为例。两个智能体 —— 一个分析器 (Analyzer) 和一个验证器 (Verifier) —— 开始在一个反馈循环中来回传递请求。两者都没有可以中断循环的停止条件,两者也都没有设置单个智能体的成本上限。循环运行了 11 天才有人察觉。最终账单:47,000 美元。

这并非极端案例。这是部署具有无限执行路径、缺乏预算强制执行(而非仅仅是预算监控,因为监控只会在损失造成后才提醒你)以及停止标准不明确的系统的必然结果。智能体循环是一种新的失效模式,目前还没有成熟的工程实践来预防。监控工具只能在事后标记。大多数组织中并不存在能够预防这种情况的基础设施控制机制。

还有一些备受关注的操作失败案例。一个 AI 编程助手在有明确指令禁止的情况下删除了生产数据库。一个自主采购智能体代表未授权的用户进行了未经授权的购买。这些失败不是可以打补丁的 Bug —— 它们是在没有足够约束的情况下,向现实世界部署采取不可逆操作的系统所带来的后果。

复杂度陷阱在于,你添加的每一项能力 —— 工具调用、记忆、多步规划、智能体间通信 —— 都会使可能的失效模式成倍增加,而成功结果的概率却不会线性增长。

选择合适 AI 级别的框架

问题不在于 “我们是否应该使用 AI?” 甚至不在于 “我们是否应该使用智能体?”,而在于:解决这个问题所需的最低 AI 复杂度是多少?额外增加复杂度的增量价值是否值得其成本?

从简单到复杂的层级如下:

带有检索的单次 LLM 调用 可以处理大多数在生产环境中真正交付价值的 AI 使用场景。分类、提取、摘要、路由、根据定义好的模板生成。这些方式快速、廉价、可靠且易于调试。当单次调用产生错误输出时,你可以读取输入并追踪出错原因。

具有固定步骤的确定性工作流 适用于需要多次 LLM 调用但顺序可预测的场景。文档审查、随后提取、再进行验证,这遵循一条已知路径。不需要智能体自主权。每个步骤都可以独立测试。失败是局部化的。

真正的智能体 处理那些路径确实无法硬编码的场景 —— 即动作序列取决于前一个动作返回的结果,且问题空间足够广泛,人类无法提前列举所有情况。这些情况确实存在,但比行业吹捧的要少得多。引入智能体的门槛应该是:你已经尝试过更简单的方案,但它们在特定的关键边缘案例中失败了。

具体来说:如果你能写下系统需要处理的所有决策分支,你就不需要智能体。如果你的工作流在固定步数内终止,你就不需要智能体。如果你系统正在处理大量结构化数据,你也不需要智能体。

这在实践中意味着什么

能够正确处理这一点的团队不会从架构开始,而是从业务流程开始。

他们会梳理目前耗费人力时间的决策,并识别捕捉该决策的输入/输出对。他们会检查基于规则的系统是否已经能够充分处理大部分情况。他们会单独对 LLM 调用进行原型设计,并根据标注样本衡量其准确性。他们会追踪失败情况,以了解错误是随机的(可接受)还是系统性的(可修复)。

只有当单次调用方法在业务真正需要的某些方面明显失败时,他们才会增加复杂度 —— 并且是循序渐进地增加,同时进行明确的测试,确保每次增加都能带来可衡量的改进。

其结果是在生产环境中运行良好、失效模式可预测的软件,且无需长达两小时的架构讲解即可移交给新工程师。它也往往比另一种方案产生大得多的业务价值,这就是它能持续胜出的原因。

行业正在学习,虽然缓慢

有迹象表明,演示与生产之间的差距正在开始缩小。那些在 2024 年构建了令人印象深刻的智能体系统的组织,现在正对着 2025 年的事故报告发愁。标准普尔全球 (S&P Global) 发现,2025 年有 42% 的公司放弃了大部分 AI 计划,高于 2024 年的 17% —— 这表明那些 “在演示中令人惊叹,但在生产中无法使用” 的 AI 项目正加速被抛弃。

这种转变是从追求新奇转向追求可靠性。团队不再问 “我们的智能体能在演示中做到这一点吗?”,而是问 “当它针对真实输入运行一万次时会发生什么?” 这是一个更好的问题,它往往倾向于筛选出更简单的系统。

对于当今构建 AI 应用的从业者来说,乏味的 AI 宣言并非是对雄心壮志的否定,而是对雄心壮志应投向何处的重新定位。雄心壮志应该投入到分类器的质量、提取流水线的可靠性,以及路由系统的速度和准确性中。目标是让用户可以默默依赖的软件,而不是在 30 分钟演示中让利益相关者印象深刻、却在第二周就让用户失望的软件。

一个能在规模化场景下每次都正确路由支持工单的单一提示词,其工程成就远高于一个大部分时间有效的多智能体系统。去构建前者吧。

References:Let's stay in touch and Follow me for more thoughts and updates