Agent 烙印:当市场部负责命名,而工程部支付运维账单时
一名产品市场经理 (PMM) 在发布简报中写下了“AI 智能体 (AI agent)”。新闻稿发布后,将其描述为具备自主决策能力。六周后,工程团队正盯着 Jira 看板上满满的“智能体可观测性”工单,而这些是他们从未针对一个本质上只是“单个提示词后接硬编码工具调度”的系统所规划的。没人撒谎。没人犯技术错误。团队只是意识到,“智能体”这个词并非一种描述——它是一个戳记 (stamp),而这个戳记带有的运维影响,无论实现方式是否合理,工程团队都必须承接。
这就是 Gartner 如今所谓的“智能体洗白 (agent washing)”的内部版本。外部版本——供应商为了追赶炒作周期将聊天机器人重新包装为智能体——往往会获得媒体关注。而内部版本则更加隐蔽且昂贵,因为这笔账落在了那些在术语被批准时无法反驳的人身上。
这种动态在整个行业中如期上演。Gartner 2025 年的一项分析估计,在成千上万家营销智能体能力的供应商中,只有大约 130 家交付的系统符合可站得住脚的智能体定义。同一份分析预测,到 2027 年底,超过 40% 的 AI 智能体项目将因成本攀升和投资回报率 (ROI) 不明而被取消。这些数字描述了外部定位,但产生这两者的内部机制——标签走在了实现的前面——在那些尚未交付一行智能体代码的公司内部同样在上演。
什么是“智能体”的真正含义,以及为什么有人在乎
Anthropic 的《构建有效的智能体》(Building Effective Agents) 一文划定了一道界限,这也是大多数在岗工程师目前接受的核心区别。工作流 (workflow) 是通过预定义的代码路径编排 LLM 和工具的系统。智能体 (agent) 则是 LLM 动态引导自身流程和工具使用的系统,对其如何完成任务保持自主控制。“流水线 vs 智能体”的问题可以简化为一个运维问题:谁在驾驶席上,是开发者的控制流,还是模型的运行时决策?
这种区别并非咬文嚼字。它是决定系统在生产环境中安全运行所需哪些运维原语 (operational primitives) 的界限。工作流的故障模式受限于开发者编写的代码路径——LLM 可以在任何步骤返回错误答案,但它不能决定调用开发者未列出的工具,或者循环,或者升级,或者拒绝任务。智能体的故障模式受限于提示词和工具表面——这意味着运维关注点扩大到了包括工具预算耗尽、计划执行偏离、死循环检测以及人工介入阈值。
一个构建了工作流的团队,在有人在公开场合称其为“智能体”的那一刻,就继承了智能体 的运维成本。这就是那个“戳记”。
标签所隐含的运维原语
一旦“智能体”出现在营销页面上,工程团队就要负责一系列实现过程中可能并不需要的能力。这些不是“有了更好”的功能;而是当系统第一次让某人感到意外时,客户、审计员和值班工程师都会要求的东西。
- 多轮推理可观测性。 如果系统在“思考”,那么追踪 (trace) 需要以人类可以审阅的形式展示这种思考过程。一个执行单次 LLM 调用后接工具调度的流水线会产生扁平日志;而智能体需要一个结构化的追踪,命名步骤、考虑过的工具以及被拒绝的分支。
- 工具预算控制。 一个真正的智能体可以反复调用工具直到达到预算上限。强制执行该预算的基础设施——计数器、熔断、回退方案——必须存在,即使当前的实现从不循环。因为一旦未来的提示词编辑开启了循环功能,生产环境的爆炸半径将变得不受控制。
- 计划执行一致性检查。 如果系统被描述为具有规划能力,就必须有人检测实际执行何时偏离了既定计划。这需要将计划表示为数据,而不仅仅是思维链 (CoT) 中的散文。
- 升级路径。 智能体以能够自主处理模糊性为卖点。反过来说,当它们无法处理时,必须有一个干净的人工移交——否则用户会得到一个一本正经胡说八道的答案,这是对声誉损害最大的故障模式。
这些每一项都需要消耗真实的工程季度。一个规划了“智能流水线”却被塞入“智能体”发布简报的团队,要么必须补齐这些原语,要么在没有这些原语的情况下发布并承担运维风险,或者与市场部进行一次令人不快的对话,讨论新闻稿到底承诺了什么。
随之而来的分歧
当简报与实现不一致时,团队并不会立即意识到这一点。发现过程发生在三个不同的房间、三个不同的时间,并产生了三个互相矛盾的合理叙事。
客户成功团队从用户那里听到,用户将系统视为智能体——“为什么它在建议时间之前不先检查我的日历”——并得出结论:工程团队开发不足。工程团队指着技术规格说明书,上面描述的是一个确定性的建议流水线,并认为客户成功团队在错误地引导预期。产品团队看着发布简报,上面写着“智能体”,并得出结论:工程部当初应该问清楚那是什么意思。市场部看着新闻稿,描述了一个分析师群体已经铺垫好的功能类别,并得出结论:整个对话只是不改变公众定位的内部杂音。
每个职能部门的行为都与其阅读的简报保持一致。然而简报是三份不同的文档,且互不参考。这并不是一个可以通过更多会议解决的沟通问题。这是一个词汇量问题:“智能体”这个词对市场部意味着产品定位类别,对客户成功团队意味着客户预期,对工程部意味着实现模式,对法务意味着披露范围。这些定义都没有错,它们只是互不重叠。
成本会在六个月后显现,当时董事会审计询问为什么智能体功能的“人工介入率”如此之高。答案——即该实现本质上是一个工作流,注定会在面对分布外 (out-of-distribution) 输入时寻求介入——是正确的,但这也是一种承认:该功能是以它并不具备的能力命名的。
必须首先进行的领导层对话
解决方法并不是停止使用 “agent”(智能体)这个词。这个词在市场上发挥着实际作用 —— 它是客户发现功能的方式,是分析师进行分类的依据,也是采购部门证明预算合理性的理由。解决方法是在术语发布之前,将命名决策提升为领导层决策,并根据工程现实来界定范围。
按顺序询问以下三个问题,可以在这些问题演变成工单(tickets)之前,显现出运营上的影响。
第一:在我们的产品分类法中,“agent” 意味着什么? 内部定义没问题,但必须足够具体,以便在下次发生争议时,可以通过查阅文档来解决。“Agent 是模型根据运行时决策决定下一步调用哪个工具的任何功能” 是一个定义。“Agent 是帮助用户完成任务的功能” 则是一个口号。没有内部定义的团队,使用的是那个星期嗓门最大的读者心目中的定义。
第二:这个术语对用户来说是承重的(load-bearing),还是装饰性的(ornamental)? “承重” 意味着当用户听到这个词时,他们的行为会发生变化 —— 他们会委托更难的任务,容忍更长的延迟,并期望系统能处理歧义。“装饰性” 意味着用户将该术语视为一种品牌信号,而他们的行为不会改变。同一个词在产品的一个层面可能是承重的,在另一个层面则可能是装饰性的。如果它是装饰性的,运营范围可以保持 不变。如果它是承重的,范围就会扩大,以匹配用户新的心理模型。
第三:哪些运营原语(operational primitives)在术语发布的那一刻起就变得不可协商? 从列表中选择 —— 可观测性、工具预算、计划一致性(plan adherence)、升级机制 —— 并决定哪些是发布所必需的,哪些取决于使用信号。然后为它们设定日期。如果一个原语是 “如果用户投诉我们再加”,那么它距离二级故障(Sev-2)只差一个客户工单。
这三个问题在技术上并不有趣,但它们是成本分配的地方。在发布简报获批前回答这些问题的团队,正在以最低的成本完成工作。在新闻稿发布后才回答这些问题的团队,正在支付 “agent-washing”(智能体虚假宣传)税,只是这笔税是交给自己的工程部门,而不是交给客户。
术语即合同
“营销问题” 这个说法让这看起来像是某个团队的失败。事实并非如此。术语是同时与三个受众签订的合同 —— 用户(形成预期)、监管机构(定义风险面)和工程师(界定实现范围)。当合同由一方起草而其他方不在场时,初衷与责任之间的差距就成了运营成本。
监管角度已不再是假设。2026 年发布的证券法分析开始将 agent washing 视为披露风险 —— 营销那些无法交付的自主性的公司,现在正面临一年前尚不存在的投资者保护索赔。监管机构不会在意这个词是来自营销部门还是产品部门;他们会阅读公开披露的信息,并询问实现方案是否匹配。工程团队才是那个必须给出答案的人。
这是关于 agent-washing 的讨论中大多忽略的部分。外 部框架 —— “供应商过度推销他们的 agent” —— 将问题定性为道德问题,这使得它很容易被当作别人的问题而忽略。内部框架则是运营上的:术语所承诺的与系统所能做的之间的差距,既是生产事故的来源,也是监管风险,还是客户信任的赤字。
架构层面的认知
一个认真对待此事的团队会开始将术语视为系统设计输入,而不是下游产物。发布简报不是最后确定命名的地方,而是第一个。在新闻稿起草之前,通常是经历过这种事情的 Staff Engineer,应该能够指着实现方案,指着术语说:“实现方案支持这个术语” 或者 “这个术语让我们承诺了尚未完成的工作”。两个答案都可以。任何一个答案都会告诉团队下一步该做什么。
能够正确处理此事的团队最终会做两件事之一。他们要么在发布前构建术语所隐含的运营原语 —— 发布较慢,agent-washing 风险较低,工程成本较高;要么选择一个实现方案真正支持的更精确的术语。“建议引擎” 并不性感。但它也不在 agent-washing 的名单上,而且它不会让团队承诺无法交付的计划一致性监控。
这个词是一个戳记。这个戳记是真实存在的。那些在没有界定工作范围的情况下就选定戳记的团队,并不是在做营销决策;而是在将工程季度的资源投入到一个工程方从未签署的简报中。最昂贵的差距是直到运营账单寄到才被人察觉的差距 —— 到那时,该术语已经在产品页面上挂了六个月,分析师已经对该功能进行了分类,撤销戳记的成本比直接买单的成本还要高。
将选词作为一项领导层决 策。根据术语来界定工程范围,而不是根据实现方案来定义术语。智能体的戳记在未来至少两年内仍将在整个行业中流传;对于任何特定团队来说,唯一的问题是他们将其视为合同还是标签。
- https://www.anthropic.com/research/building-effective-agents
- https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
- https://writer.com/blog/agent-washing/
- https://corpgov.law.harvard.edu/2026/04/16/agent-washing-disclosure-risks-in-the-emerging-market-for-ai-agents/
- https://www.promptingguide.ai/agents/ai-workflows-vs-ai-agents
- https://particula.tech/blog/agent-washing-real-vs-fake-ai-agents
