跳到主要内容

Token-Per-Watt:你的仪表盘无法计算的 AI 可持续性指标

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的可持续发展仪表盘报告显示:“本季度 AI 能耗:2.3 GWh,同比下降 4%”,这张幻灯片在 ESG 评审中得到了礼貌性的认可。六个月后,CFO 走出分析师电话会议,向平台负责人提出了一个听起来很简单的问题:“我们的每瓦特 Token 数(token-per-watt)是多少?与竞争对手相比如何?”仪表盘无法回答。这并不是因为数据缺失——仪表盘里堆满了数据——而是因为它将推理视为单一的条目,将任务视为产品概念,而 AI 可持续性唯一真实的单位存在于这两者的交汇点。

这种错位并不是报告中的 Bug。这是一个分类错误,现有的碳核算指南(为基于 CPU 小时和每台虚拟机 kWh 的云工作负载而完善)无法独自解决。推理并不是一种具有稳定能量特征的工作负载。每 Token 的瓦特数会根据响应请求的模型层级(model tier)产生 30 倍的变化,根据调用时的批处理大小(batch size)产生 4 倍的变化,并根据前缀缓存(prefix cache)是否命中而产生另一个数量级的差异。将这些汇总成一个单一的 GWh 数字,就像在包含踏板车、轿车和 18 轮大卡车的车队中报告“平均汽车燃油效率”一样——在最无用的层面上,它是准确的。

首先弄清楚这一点的团队看起来就像发明了一个新学科。其实不然。他们只是将 FinOps 指南转化为与产品对应的单位,并在监管机构或客户提出要求之前就将其展示在仪表盘上。

每瓦特 Token 数是错误的单位,却是正确的问题

当董事会成员询问每瓦特 Token 数(token-per-watt)时,他们是在寻求一个标准化的效率指标——一个可以跨供应商、跨季度、跨产品线进行比较的指标。每瓦特 Token 数听起来像是 AI 领域的“每加仑英里数”。但事实并非如此。Token 是模型层的一种会计虚构;用户并不消耗 Token,用户消耗的是结果。如果一个生成 200 个 Token 的总结任务比一个生成 100 个 Token 的任务让用户重试了三次,那么前者并不比后者“贵一倍”。

真正的单位是任务瓦特(task-watts):完成每个用户可见操作所消耗的能量。一个“任务”是指“用户点击总结按钮并获得了一份他们保留下来的总结”。任务瓦特需要将推理日志(包含 Token、模型版本、GPU 类型和批处理上下文信息)与用户操作遥测数据(包含操作是否完成、重试、放弃或升级为人工处理的信息)结合起来。大多数可观测性堆栈都拥有这两部分数据,但几乎没有一个将它们关联起来。

每瓦特 Token 数仍然是一个有用的中间指标——它是放在模型卡(model card)上的正确数字,也是采购部门比较同一模型层级的两个供应商的正确数字。但对于路线图(roadmap)来说,它是错误的数字。一个团队如果通过切换到更小的模型将每瓦特 Token 数降低了 30%,但导致任务完成率下降了 12%,那么他们并没有让产品变得更具可持续性。他们只是将能量消耗从推理调用转移到了用户的第三次尝试中。

聚合所隐藏的差异性

单一的 AI 能耗条目之所以具有误导性,是因为它平均化了三种差异来源,而其中的每一种都是普通团队尚未触及的路线图杠杆。

模型层级(Model tier)。 2026 年的硬件包络意味着,单次文本补全的能耗范围可以从运行在 Blackwell 级 GPU 上的小型量化模型的约 0.05 瓦时,到处理相同提示词的前沿模型(frontier model)的数瓦时。这不是噪声——而是一个路由决策。大多数生产流量都可以适应该范围内的低成本端,而大多数团队无法分辨他们的流量中有多少比例是出于谨慎而非必要被路由到了高成本端。在质量损失可以忽略不计的情况下,进行 4 位或 8 位量化(Quantization)已成为标准做法,并再次改变了曲线。

批处理大小(Batch size)。 推理引擎在大批处理大小时的能耗效率显著更高。与引擎可以将 16 个并发请求打包在一起时相比,以单批次(batch-of-one)提供的相同请求消耗的能量要多出数倍。出于尾部延迟(tail-latency)考虑而将批处理大小固定为 1 的延迟敏感型端点,在每次调用中都在支付这种能量倍数,而仪表盘并没有显示这一点,因为批处理大小是推理引擎的内部参数,而不是一个记录字段。

前缀缓存命中率(Prefix-cache hit rate)。 对于相同的提示词,前缀缓存命中(prefix-cache hit)消耗的能量比冷启动推理(cold inference)少约 90%。具有稳定系统提示词和对话前缀的实际工作负载,在配合正确的调度程序时,通常能达到 80–90% 的缓存命中率;而前缀规范较差的工作负载命中率仅为 20–30%,其余部分则需支付全额能耗。缓存命中率是大多数生产堆栈中最大的单一能量杠杆,它存在于推理层,位于可持续发展团队报告的指标之下。

报告总 GWh 的仪表盘隐藏了这三者。一个报告每个功能的任务瓦特(task-watts),并按模型层级、平均批处理大小和缓存命中率进行细分的仪表盘,能让这些因素变得可见——这是将它们视为路线图项目而非运营意外的前提。

这种必须落地的纪律

每个功能的任务瓦特(Task-Watt)监控是基础。每次推理调用都需要标记其服务的用户可见任务;每个任务事件都需要一个关联键(join key)来回溯产生它的推理调用。这不只是一个功能开关或一次性的批处理任务——这是推理路径与产品分析路径之间必须跨两者保持一致的契约。那些为了成本而实施这一方案的团队(即 FinOps 故事)已经拥有了大部分基础架构;他们只是还没有将每个任务的 Token 计数乘以所服务模型的“每 Token 瓦特”系数。加上数据中心和时段的碳强度,就能得出“任务二氧化碳克数”(task-grams of CO₂),这正是监管机构最终会要求的单位。

模型混合路由(Model-mix routing)是最大的可控杠杆,将其视为碳排放决策会改变其治理方式。将符合低成本模型条件的任务向下路由已经是一项成本决策;将其定义为可持续性决策,则提高了证明路由规则合理性的评估(eval)门槛(因为发布一个悄无声息降低特定人群体验的路由变更,现在也成了一个公平性问题),并为投资路由器本身创造了辩护理由。诸如《绿色感知路由》(Green-Aware Routing)之类的碳意识路由研究,将其形式化为一种约束优化——在准确率底线和延迟 SLO 的约束下最小化排放。这种框架比算法本身更有用:它迫使团队写下这些底线。

季度碳排放与质量曲线(carbon-vs-quality curve)是让权衡在路线图层面变得明确的产物。在一条轴上绘制任务瓦特,在另一条轴上绘制面向用户的质量指标;团队的功能组合作为点分布在该平面上。对话从“我们是否可持续”(无法回答)转向“哪些功能偏离了有效边界,移动它们需要多少成本”。这是产品领导层懂得如何进行的对话,且不需要可持续发展专家来调解。

采购合同必须开始将供应商的数据中心碳强度作为可对比的输入。以每百万 Token 美元定价且不披露碳强度的模型 API,对于范围 3(Scope 3)计算来说就是一个黑盒。发布各地区碳强度、时段信号和各模型能耗披露的供应商将变得更受欢迎,不是因为他们更便宜,而是因为他们是可审计的。绿色网络基金会(The Green Web Foundation)在 carbon.txt 中关于 AI 模型卡的尝试是这种披露的早期版本;绿色软件基金会(Green Software Foundation)的碳感知 SDK 是使用这种披露的早期版本。

已经显现的组织失效模式

这种模式的崩溃是结构性的,而非技术性的。可持续发展部门与 AI 工程部门位于不同的组织架构下——通常属于运营、房地产或 ESG 报告部门——且两个部门都没有对方所需的行动数据。可持续发展团队拥有来自数据中心的碳强度数据,但无法将其归因于特定功能。AI 工程团队拥有每个功能的推理日志,但没有可相乘的碳系数。最终发布的仪表盘是两个组织无需协调就能达成一致的关联项,即那个平庸的指标:季度总千兆瓦时(GWh)。

这种失败模式是悄无声息的。ESG 报告发布了。AI 路线图发布了。一年后,一个拥有严苛采购流程的客户或一个带有新披露规则的监管机构要求提供一个数据,而两个部门都无法在截止日期前提供,这种忙乱暴露了没有人负责这个关联。走在前面的团队要么在 AI 平台团队中嵌入一名可持续发展数据工程师,要么——更常见,且作为组织模式更具可持续性地——直接让 AI 工程负责人对可持续性指标负责,将可持续发展团队视为合作伙伴而非报告目的地。

文化转变是最难的部分。可持续性在历史上一直是一项报告职能:对已经发生的事情进行监控,将其归入某个类别,然后存档。AI 工程版本更接近于性能工程:持续监控,归因于功能,作为路线图项进行优化。这是一种不同的肌肉记忆,如果不锻炼这种能力的团队,最终会得到一个绿色数字不断增长的仪表盘,而底层的任务瓦特却在恶化。

为什么这是下一个 FinOps

FinOps 的前两年是一个冷门学科,财务团队礼貌地询问,而工程团队则认为这是干扰工作的琐事。转折点发生在云账单跨过 CFO 无法再将其视为日常开支的门槛时,那些悄悄构建了按服务进行成本归因的工程团队突然变得不可或缺。AI 可持续性也将上演同样的轨迹,而且转折点的到来比大多数团队计划的要近。

强制性因素正在堆叠。AI 在数据中心能源中的占比正在快速增长,预测显示,到 2026 年,AI 工作负载可能会将全球数据中心电力需求从 2022 年的 460 TWh 推高至约 1,050 TWh。披露制度正在收紧:2025 年 1 月生效的美国行政命令指示能源部(DOE)起草 AI 数据中心报告要求,欧盟的《AI 法案》可持续性条款,以及大型企业客户的采购规则,都将在未来两年内汇聚到按任务披露碳排放的要求上。率先发布的供应商将成为默认选择;无法发布的供应商将在竞争中输给那些能够发布的对手。

在本季度建立起每个功能的任务瓦特监控的团队,并不是在做可选的 ESG 合规。他们正在构建 CFO 将会索要的指标、大客户将会要求的披露,以及其成本优化路线图将独立趋向的路由原语。无论哪种强制性因素先到来,工作内容都是一样的。

真正重要的转折点是,当每瓦特 Token 数(token-per-watt)——或行业标准化的任何任务瓦特版本——从可持续性幻灯片中的一页变成架构评审中的一行时。发布静态 GWh 仪表盘的团队发布的只是已经发生偏移的流中的效率快照。而发布与产品关联的、具有模型混合和缓存规范作为可见杠杆的按任务碳排放指标的团队,发布的才是唯一能在每季度都在改变形状的推理工作负载中存续的可持续性版本。

References:Let's stay in touch and Follow me for more thoughts and updates