跳到主要内容

Agent 工作流的碳计算:Token 预算现已成为 ESG 披露

· 阅读需 12 分钟
Tian Pan
Software Engineer

无状态的聊天补全(Stateless chat completion)耗电量极低。一次中等规模的 Gemini 文本提示耗电约为 0.24 Wh;一次简短的 GPT-4o 查询约为 0.3–0.4 Wh。这些数字微乎其微,甚至没人会把它们放进董事会演示文稿里。

智能体任务(Agent task)并非普通的聊天补全。一个典型的“研究该客户并起草回复”的工作流可以扇出(Fan out)到 30 多个工具调用、10–15 次模型调用,且上下文窗口随着每一步不断增长。能源成本随调用图(Call graph)呈复合增长。当智能体返回结果时,你消耗的不是一个推理单元,而是五十到两百个。突然之间,每个任务的碳足迹便与视频流达到了同一数量级。

这种算术题很快就会在工程部门之外产生影响。欧盟的 CSRD 使范围 3(Scope 3)排放披露成为受规制公司的强制要求,并要求从 2026 年起提交机器可读的 iXBRL 报告。尽管 SEC 在其最终规则中删除了范围 3,但任何在欧盟有业务的跨国公司仍然必须回答这个问题。采购团队已经开始在供应商调查问卷中加入“你的 AI 功能每个用户任务的碳足迹是多少?”这类问题。大多数工程团队无法回答,因为从来没有人测量(Instrumented)过它。

为什么智能体工作流打破了单次查询的思维模型

媒体报道中引用的能源估算值——0.24 Wh、0.3 Wh、0.34 Wh——是来自公共聊天助手的单次查询数据。它们描述的是单次预填充(Prefill)加上简短解码(Decode),带有简短的系统提示且没有使用工具的情况。它们并不能描述你的智能体在做什么。

在这些基准之上,还有三个叠加的倍增器:

扇出(Fan-out)。 分发子任务的并行智能体各自独立累积成本。一个生成六个研究员的规划器(Planner),如果每个研究员进行四次工具调用并生成最终摘要,那么对于曾经的一个用户请求,现在已经执行了七次模型调用和二十四次检索。

上下文增长(Context growth)。 每个工具的结果都会被追加到下一次调用的上下文中。到第十步时,你正在为一个提示词支付预填充费用,而这个提示词的大小可能是初始时的 50–100 倍。预填充成本大致随输入 Token 线性增长,因此“相同的模型,相同的任务”的能源成本会在整个轨迹中不断爬升。

推理模型(Reasoning models)。 在长提示词下,推理模型与小模型之间的成本差距是巨大的。最近的基准测试测量出 o3 和 DeepSeek-R1 在长提示词下的耗电量超过 33 Wh——是相同输入下 GPT-4.1 nano 消耗量的 70 倍以上。如果你的智能体在每一步都使用长时思考模型,而不是仅在真正需要的步骤中使用,那么在工具选择之前,你就已经在碳排放争议中败下阵来。

综合这些因素,一个完整的智能体任务很可能消耗 15–60 Wh。从绝对数值来看这仍然很小,但这是一个会随流量波动的数字。如果每月有一百万个任务,你谈论的就是中型办公楼的年耗电量,这些电力来自碳强度各异的电网:从魁北克或法国的低于 50 gCO₂e/kWh,到美国南部部分地区的超过 600 gCO₂e/kWh。

报告压力已经到来

关于 SEC 范围 3 披露的政治辩论掩盖了实际交付的内容。SEC 的最终规则不要求范围 3 报告,但欧盟的 CSRD 要求这样做,而且欧盟在 2025 年底的综合修订案中并未删除范围 3 的要求——它们只是缩小了适用公司的范围,并将部分申报者的截止日期推迟到 2028 年,同时保留了实质内容。

对于数字产品,AI 推理对客户而言属于范围 3 类别 1(已购买的商品和服务),对模型供应商而言属于范围 2。这在实践中意味着两件事。首先,你的买方的合规团队将会向你索要每个用户任务的排放估算值,即使你自己的法律团队尚未标记这一点。其次,模型供应商不会为你完成你所需的细粒度到每个任务的工作。例如,Anthropic 已公开承诺实现净零抵消并吸收纳税人的电价上涨,但在最近的供应商风险披露中,尚未发布单次调用的范围 1/2/3 细分数据。OpenAI 同样含糊其辞。

这种模式对于任何在共享云账户上运行 Kubernetes 集群的人来说都很熟悉:唯一能将成本归因于特定用户任务的实体就是你。账单来自平台;归因则由你来计算。

单次调用归因:你已拥有的遥测数据

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates