跳到主要内容

4 篇博文 含有标签「sustainability」

查看所有标签

Token-Per-Watt:你的仪表盘无法计算的 AI 可持续性指标

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的可持续发展仪表盘报告显示:“本季度 AI 能耗:2.3 GWh,同比下降 4%”,这张幻灯片在 ESG 评审中得到了礼貌性的认可。六个月后,CFO 走出分析师电话会议,向平台负责人提出了一个听起来很简单的问题:“我们的每瓦特 Token 数(token-per-watt)是多少?与竞争对手相比如何?”仪表盘无法回答。这并不是因为数据缺失——仪表盘里堆满了数据——而是因为它将推理视为单一的条目,将任务视为产品概念,而 AI 可持续性唯一真实的单位存在于这两者的交汇点。

这种错位并不是报告中的 Bug。这是一个分类错误,现有的碳核算指南(为基于 CPU 小时和每台虚拟机 kWh 的云工作负载而完善)无法独自解决。推理并不是一种具有稳定能量特征的工作负载。每 Token 的瓦特数会根据响应请求的模型层级(model tier)产生 30 倍的变化,根据调用时的批处理大小(batch size)产生 4 倍的变化,并根据前缀缓存(prefix cache)是否命中而产生另一个数量级的差异。将这些汇总成一个单一的 GWh 数字,就像在包含踏板车、轿车和 18 轮大卡车的车队中报告“平均汽车燃油效率”一样——在最无用的层面上,它是准确的。

Agent 工作流的碳计算:Token 预算现已成为 ESG 披露

· 阅读需 12 分钟
Tian Pan
Software Engineer

无状态的聊天补全(Stateless chat completion)耗电量极低。一次中等规模的 Gemini 文本提示耗电约为 0.24 Wh;一次简短的 GPT-4o 查询约为 0.3–0.4 Wh。这些数字微乎其微,甚至没人会把它们放进董事会演示文稿里。

智能体任务(Agent task)并非普通的聊天补全。一个典型的“研究该客户并起草回复”的工作流可以扇出(Fan out)到 30 多个工具调用、10–15 次模型调用,且上下文窗口随着每一步不断增长。能源成本随调用图(Call graph)呈复合增长。当智能体返回结果时,你消耗的不是一个推理单元,而是五十到两百个。突然之间,每个任务的碳足迹便与视频流达到了同一数量级。

这种算术题很快就会在工程部门之外产生影响。欧盟的 CSRD 使范围 3(Scope 3)排放披露成为受规制公司的强制要求,并要求从 2026 年起提交机器可读的 iXBRL 报告。尽管 SEC 在其最终规则中删除了范围 3,但任何在欧盟有业务的跨国公司仍然必须回答这个问题。采购团队已经开始在供应商调查问卷中加入“你的 AI 功能每个用户任务的碳足迹是多少?”这类问题。大多数工程团队无法回答,因为从来没有人测量(Instrumented)过它。

推理 Span 中缺失的 kWh 列:单次请求的碳归因

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的推理火焰图(inference flame graph)有一个成本轴,但没有能源轴。这种差距在某天早上之前都没问题,直到客户的采购团队给你发来一份包含 23 列供应商可持续性披露信息的电子表格,其中一列是 每 1,000 次推理的 kgCO2e。你没办法填那一格,你的供应商给出的答案是一篇方法论论文,而交易将在 9 天内关闭。你的平台团队磨练了两年的 token 成本仪表盘突然看起来像是解决了一个错误的问题。

这里的转变并非抽象的。可持续性披露正在从公司层面的汇总转向产品层面的颗粒度。第一波浪潮于 2025 年进入了 CSRD 和 ESRS,而第二波浪潮现在正冲击着 B2B 采购合同。构建了成本可观测性的工程组织即将发现,他们需要针对碳排放的可观测性,而这两者在同一个 span 上并非同一列。

AI基础设施碳核算:你的团队尚未衡量的可持续发展成本

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个正在基于LLM构建系统的工程团队,都在做基础设施决策时忽视了一项隐性成本。你会追踪token数量、延迟和API开支,但几乎没有人追踪其运行的推理工作负载的碳排放——而这个缺口正在迅速收窄,来自监管和市场两个方向的压力都在增加。

AI系统现在占全球温室气体排放的2.5–3.7%,已正式超过航空业2%的贡献,且每年增长15%。仅2024年,运行AI专用服务器的美国数据中心就消耗了53–76 TWh的电力——足以为720万户家庭供电一年。这种规模已不再是假设,工程团队需要了解自身贡献的预期正成为真实的组织压力。