Agent 烙印：当市场部负责命名，而工程部支付运维账单时

2026年5月13日 · 阅读需 11 分钟

Software Engineer

一名产品市场经理 (PMM) 在发布简报中写下了“AI 智能体 (AI agent)”。新闻稿发布后，将其描述为具备自主决策能力。六周后，工程团队正盯着 Jira 看板上满满的“智能体可观测性”工单，而这些是他们从未针对一个本质上只是“单个提示词后接硬编码工具调度”的系统所规划的。没人撒谎。没人犯技术错误。团队只是意识到，“智能体”这个词并非一种描述——它是一个戳记 (stamp)，而这个戳记带有的运维影响，无论实现方式是否合理，工程团队都必须承接。

这就是 Gartner 如今所谓的“智能体洗白 (agent washing)”的内部版本。外部版本——供应商为了追赶炒作周期将聊天机器人重新包装为智能体——往往会获得媒体关注。而内部版本则更加隐蔽且昂贵，因为这笔账落在了那些在术语被批准时无法反驳的人身上。

这种动态在整个行业中如期上演。Gartner 2025 年的一项分析估计，在成千上万家营销智能体能力的供应商中，只有大约 130 家交付的系统符合可站得住脚的智能体定义。同一份分析预测，到 2027 年底，超过 40% 的 AI 智能体项目将因成本攀升和投资回报率 (ROI) 不明而被取消。这些数字描述了外部定位，但产生这两者的内部机制——标签走在了实现的前面——在那些尚未交付一行智能体代码的公司内部同样在上演。

什么是“智能体”的真正含义，以及为什么有人在乎

Anthropic 的《构建有效的智能体》(Building Effective Agents) 一文划定了一道界限，这也是大多数在岗工程师目前接受的核心区别。工作流 (workflow) 是通过预定义的代码路径编排 LLM 和工具的系统。智能体 (agent) 则是 LLM 动态引导自身流程和工具使用的系统，对其如何完成任务保持自主控制。“流水线 vs 智能体”的问题可以简化为一个运维问题：谁在驾驶席上，是开发者的控制流，还是模型的运行时决策？

这种区别并非咬文嚼字。它是决定系统在生产环境中安全运行所需哪些运维原语 (operational primitives) 的界限。工作流的故障模式受限于开发者编写的代码路径——LLM 可以在任何步骤返回错误答案，但它不能决定调用开发者未列出的工具，或者循环，或者升级，或者拒绝任务。智能体的故障模式受限于提示词和工具表面——这意味着运维关注点扩大到了包括工具预算耗尽、计划执行偏离、死循环检测以及人工介入阈值。

一个构建了工作流的团队，在有人在公开场合称其为“智能体”的那一刻，就继承了智能体的运维成本。这就是那个“戳记”。

标签所隐含的运维原语

一旦“智能体”出现在营销页面上，工程团队就要负责一系列实现过程中可能并不需要的能力。这些不是“有了更好”的功能；而是当系统第一次让某人感到意外时，客户、审计员和值班工程师都会要求的东西。

多轮推理可观测性。 如果系统在“思考”，那么追踪 (trace) 需要以人类可以审阅的形式展示这种思考过程。一个执行单次 LLM 调用后接工具调度的流水线会产生扁平日志；而智能体需要一个结构化的追踪，命名步骤、考虑过的工具以及被拒绝的分支。
工具预算控制。 一个真正的智能体可以反复调用工具直到达到预算上限。强制执行该预算的基础设施——计数器、熔断、回退方案——必须存在，即使当前的实现从不循环。因为一旦未来的提示词编辑开启了循环功能，生产环境的爆炸半径将变得不受控制。
计划执行一致性检查。 如果系统被描述为具有规划能力，就必须有人检测实际执行何时偏离了既定计划。这需要将计划表示为数据，而不仅仅是思维链 (CoT) 中的散文。
升级路径。 智能体以能够自主处理模糊性为卖点。反过来说，当它们无法处理时，必须有一个干净的人工移交——否则用户会得到一个一本正经胡说八道的答案，这是对声誉损害最大的故障模式。

这些每一项都需要消耗真实的工程季度。一个规划了“智能流水线”却被塞入“智能体”发布简报的团队，要么必须补齐这些原语，要么在没有这些原语的情况下发布并承担运维风险，或者与市场部进行一次令人不快的对话，讨论新闻稿到底承诺了什么。

随之而来的分歧

当简报与实现不一致时，团队并不会立即意识到这一点。发现过程发生在三个不同的房间、三个不同的时间，并产生了三个互相矛盾的合理叙事。

客户成功团队从用户那里听到，用户将系统视为智能体——“为什么它在建议时间之前不先检查我的日历”——并得出结论：工程团队开发不足。工程团队指着技术规格说明书，上面描述的是一个确定性的建议流水线，并认为客户成功团队在错误地引导预期。产品团队看着发布简报，上面写着“智能体”，并得出结论：工程部当初应该问清楚那是什么意思。市场部看着新闻稿，描述了一个分析师群体已经铺垫好的功能类别，并得出结论：整个对话只是不改变公众定位的内部杂音。

每个职能部门的行为都与其阅读的简报保持一致。然而简报是三份不同的文档，且互不参考。这并不是一个可以通过更多会议解决的沟通问题。这是一个词汇量问题：“智能体”这个词对市场部意味着产品定位类别，对客户成功团队意味着客户预期，对工程部意味着实现模式，对法务意味着披露范围。这些定义都没有错，它们只是互不重叠。

成本会在六个月后显现，当时董事会审计询问为什么智能体功能的“人工介入率”如此之高。答案——即该实现本质上是一个工作流，注定会在面对分布外 (out-of-distribution) 输入时寻求介入——是正确的，但这也是一种承认：该功能是以它并不具备的能力命名的。

必须首先进行的领导层对话

解决方法并不是停止使用 “agent”（智能体）这个词。这个词在市场上发挥着实际作用 —— 它是客户发现功能的方式，是分析师进行分类的依据，也是采购部门证明预算合理性的理由。解决方法是在术语发布之前，将命名决策提升为领导层决策，并根据工程现实来界定范围。

按顺序询问以下三个问题，可以在这些问题演变成工单（tickets）之前，显现出运营上的影响。

第一：在我们的产品分类法中，“agent” 意味着什么？ 内部定义没问题，但必须足够具体，以便在下次发生争议时，可以通过查阅文档来解决。“Agent 是模型根据运行时决策决定下一步调用哪个工具的任何功能” 是一个定义。“Agent 是帮助用户完成任务的功能” 则是一个口号。没有内部定义的团队，使用的是那个星期嗓门最大的读者心目中的定义。

第二：这个术语对用户来说是承重的（load-bearing），还是装饰性的（ornamental）？ “承重” 意味着当用户听到这个词时，他们的行为会发生变化 —— 他们会委托更难的任务，容忍更长的延迟，并期望系统能处理歧义。“装饰性” 意味着用户将该术语视为一种品牌信号，而他们的行为不会改变。同一个词在产品的一个层面可能是承重的，在另一个层面则可能是装饰性的。如果它是装饰性的，运营范围可以保持不变。如果它是承重的，范围就会扩大，以匹配用户新的心理模型。

第三：哪些运营原语（operational primitives）在术语发布的那一刻起就变得不可协商？ 从列表中选择 —— 可观测性、工具预算、计划一致性（plan adherence）、升级机制 —— 并决定哪些是发布所必需的，哪些取决于使用信号。然后为它们设定日期。如果一个原语是 “如果用户投诉我们再加”，那么它距离二级故障（Sev-2）只差一个客户工单。

这三个问题在技术上并不有趣，但它们是成本分配的地方。在发布简报获批前回答这些问题的团队，正在以最低的成本完成工作。在新闻稿发布后才回答这些问题的团队，正在支付 “agent-washing”（智能体虚假宣传）税，只是这笔税是交给自己的工程部门，而不是交给客户。

术语即合同

“营销问题” 这个说法让这看起来像是某个团队的失败。事实并非如此。术语是同时与三个受众签订的合同 —— 用户（形成预期）、监管机构（定义风险面）和工程师（界定实现范围）。当合同由一方起草而其他方不在场时，初衷与责任之间的差距就成了运营成本。

监管角度已不再是假设。2026 年发布的证券法分析开始将 agent washing 视为披露风险 —— 营销那些无法交付的自主性的公司，现在正面临一年前尚不存在的投资者保护索赔。监管机构不会在意这个词是来自营销部门还是产品部门；他们会阅读公开披露的信息，并询问实现方案是否匹配。工程团队才是那个必须给出答案的人。

这是关于 agent-washing 的讨论中大多忽略的部分。外部框架 —— “供应商过度推销他们的 agent” —— 将问题定性为道德问题，这使得它很容易被当作别人的问题而忽略。内部框架则是运营上的：术语所承诺的与系统所能做的之间的差距，既是生产事故的来源，也是监管风险，还是客户信任的赤字。

架构层面的认知

一个认真对待此事的团队会开始将术语视为系统设计输入，而不是下游产物。发布简报不是最后确定命名的地方，而是第一个。在新闻稿起草之前，通常是经历过这种事情的 Staff Engineer，应该能够指着实现方案，指着术语说：“实现方案支持这个术语” 或者 “这个术语让我们承诺了尚未完成的工作”。两个答案都可以。任何一个答案都会告诉团队下一步该做什么。

能够正确处理此事的团队最终会做两件事之一。他们要么在发布前构建术语所隐含的运营原语 —— 发布较慢，agent-washing 风险较低，工程成本较高；要么选择一个实现方案真正支持的更精确的术语。“建议引擎” 并不性感。但它也不在 agent-washing 的名单上，而且它不会让团队承诺无法交付的计划一致性监控。

这个词是一个戳记。这个戳记是真实存在的。那些在没有界定工作范围的情况下就选定戳记的团队，并不是在做营销决策；而是在将工程季度的资源投入到一个工程方从未签署的简报中。最昂贵的差距是直到运营账单寄到才被人察觉的差距 —— 到那时，该术语已经在产品页面上挂了六个月，分析师已经对该功能进行了分类，撤销戳记的成本比直接买单的成本还要高。

将选词作为一项领导层决策。根据术语来界定工程范围，而不是根据实现方案来定义术语。智能体的戳记在未来至少两年内仍将在整个行业中流传；对于任何特定团队来说，唯一的问题是他们将其视为合同还是标签。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

Agent 烙印：当市场部负责命名，而工程部支付运维账单时

什么是“智能体”的真正含义，以及为什么有人在乎

标签所隐含的运维原语

随之而来的分歧

必须首先进行的领导层对话

术语即合同

架构层面的认知

Recommended Reading

关于 Tian Pan

什么是“智能体”的真正含义，以及为什么有人在乎​

标签所隐含的运维原语​

随之而来的分歧​

必须首先进行的领导层对话​

术语即合同​

架构层面的认知​

Recommended Reading

关于 Tian Pan

什么是“智能体”的真正含义，以及为什么有人在乎

标签所隐含的运维原语

随之而来的分歧

必须首先进行的领导层对话

术语即合同

架构层面的认知