Agent 工作流的碳计算：Token 预算现已成为 ESG 披露

2026年4月27日 · 阅读需 12 分钟

Software Engineer

无状态的聊天补全（Stateless chat completion）耗电量极低。一次中等规模的 Gemini 文本提示耗电约为 0.24 Wh；一次简短的 GPT-4o 查询约为 0.3–0.4 Wh。这些数字微乎其微，甚至没人会把它们放进董事会演示文稿里。

智能体任务（Agent task）并非普通的聊天补全。一个典型的“研究该客户并起草回复”的工作流可以扇出（Fan out）到 30 多个工具调用、10–15 次模型调用，且上下文窗口随着每一步不断增长。能源成本随调用图（Call graph）呈复合增长。当智能体返回结果时，你消耗的不是一个推理单元，而是五十到两百个。突然之间，每个任务的碳足迹便与视频流达到了同一数量级。

这种算术题很快就会在工程部门之外产生影响。欧盟的 CSRD 使范围 3（Scope 3）排放披露成为受规制公司的强制要求，并要求从 2026 年起提交机器可读的 iXBRL 报告。尽管 SEC 在其最终规则中删除了范围 3，但任何在欧盟有业务的跨国公司仍然必须回答这个问题。采购团队已经开始在供应商调查问卷中加入“你的 AI 功能每个用户任务的碳足迹是多少？”这类问题。大多数工程团队无法回答，因为从来没有人测量（Instrumented）过它。

为什么智能体工作流打破了单次查询的思维模型

媒体报道中引用的能源估算值——0.24 Wh、0.3 Wh、0.34 Wh——是来自公共聊天助手的单次查询数据。它们描述的是单次预填充（Prefill）加上简短解码（Decode），带有简短的系统提示且没有使用工具的情况。它们并不能描述你的智能体在做什么。

在这些基准之上，还有三个叠加的倍增器：

扇出（Fan-out）。 分发子任务的并行智能体各自独立累积成本。一个生成六个研究员的规划器（Planner），如果每个研究员进行四次工具调用并生成最终摘要，那么对于曾经的一个用户请求，现在已经执行了七次模型调用和二十四次检索。

上下文增长（Context growth）。 每个工具的结果都会被追加到下一次调用的上下文中。到第十步时，你正在为一个提示词支付预填充费用，而这个提示词的大小可能是初始时的 50–100 倍。预填充成本大致随输入 Token 线性增长，因此“相同的模型，相同的任务”的能源成本会在整个轨迹中不断爬升。

推理模型（Reasoning models）。 在长提示词下，推理模型与小模型之间的成本差距是巨大的。最近的基准测试测量出 o3 和 DeepSeek-R1 在长提示词下的耗电量超过 33 Wh——是相同输入下 GPT-4.1 nano 消耗量的 70 倍以上。如果你的智能体在每一步都使用长时思考模型，而不是仅在真正需要的步骤中使用，那么在工具选择之前，你就已经在碳排放争议中败下阵来。

综合这些因素，一个完整的智能体任务很可能消耗 15–60 Wh。从绝对数值来看这仍然很小，但这是一个会随流量波动的数字。如果每月有一百万个任务，你谈论的就是中型办公楼的年耗电量，这些电力来自碳强度各异的电网：从魁北克或法国的低于 50 gCO₂e/kWh，到美国南部部分地区的超过 600 gCO₂e/kWh。

报告压力已经到来

关于 SEC 范围 3 披露的政治辩论掩盖了实际交付的内容。SEC 的最终规则不要求范围 3 报告，但欧盟的 CSRD 要求这样做，而且欧盟在 2025 年底的综合修订案中并未删除范围 3 的要求——它们只是缩小了适用公司的范围，并将部分申报者的截止日期推迟到 2028 年，同时保留了实质内容。

对于数字产品，AI 推理对客户而言属于范围 3 类别 1（已购买的商品和服务），对模型供应商而言属于范围 2。这在实践中意味着两件事。首先，你的买方的合规团队将会向你索要每个用户任务的排放估算值，即使你自己的法律团队尚未标记这一点。其次，模型供应商不会为你完成你所需的细粒度到每个任务的工作。例如，Anthropic 已公开承诺实现净零抵消并吸收纳税人的电价上涨，但在最近的供应商风险披露中，尚未发布单次调用的范围 1/2/3 细分数据。OpenAI 同样含糊其辞。

这种模式对于任何在共享云账户上运行 Kubernetes 集群的人来说都很熟悉：唯一能将成本归因于特定用户任务的实体就是你。账单来自平台；归因则由你来计算。

单次调用归因：你已拥有的遥测数据

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

Agent 工作流的碳计算：Token 预算现已成为 ESG 披露

为什么智能体工作流打破了单次查询的思维模型

报告压力已经到来

单次调用归因：你已拥有的遥测数据

Recommended Reading

关于 Tian Pan

为什么智能体工作流打破了单次查询的思维模型​

报告压力已经到来​

单次调用归因：你已拥有的遥测数据​

Recommended Reading

关于 Tian Pan

为什么智能体工作流打破了单次查询的思维模型

报告压力已经到来

单次调用归因：你已拥有的遥测数据