跳到主要内容

Token-Per-Watt:你的仪表盘无法计算的 AI 可持续性指标

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的可持续发展仪表盘报告显示:“本季度 AI 能耗:2.3 GWh,同比下降 4%”,这张幻灯片在 ESG 评审中得到了礼貌性的认可。六个月后,CFO 走出分析师电话会议,向平台负责人提出了一个听起来很简单的问题:“我们的每瓦特 Token 数(token-per-watt)是多少?与竞争对手相比如何?”仪表盘无法回答。这并不是因为数据缺失——仪表盘里堆满了数据——而是因为它将推理视为单一的条目,将任务视为产品概念,而 AI 可持续性唯一真实的单位存在于这两者的交汇点。

这种错位并不是报告中的 Bug。这是一个分类错误,现有的碳核算指南(为基于 CPU 小时和每台虚拟机 kWh 的云工作负载而完善)无法独自解决。推理并不是一种具有稳定能量特征的工作负载。每 Token 的瓦特数会根据响应请求的模型层级(model tier)产生 30 倍的变化,根据调用时的批处理大小(batch size)产生 4 倍的变化,并根据前缀缓存(prefix cache)是否命中而产生另一个数量级的差异。将这些汇总成一个单一的 GWh 数字,就像在包含踏板车、轿车和 18 轮大卡车的车队中报告“平均汽车燃油效率”一样——在最无用的层面上,它是准确的。

首先弄清楚这一点的团队看起来就像发明了一个新学科。其实不然。他们只是将 FinOps 指南转化为与产品对应的单位,并在监管机构或客户提出要求之前就将其展示在仪表盘上。

每瓦特 Token 数是错误的单位,却是正确的问题

当董事会成员询问每瓦特 Token 数(token-per-watt)时,他们是在寻求一个标准化的效率指标——一个可以跨供应商、跨季度、跨产品线进行比较的指标。每瓦特 Token 数听起来像是 AI 领域的“每加仑英里数”。但事实并非如此。Token 是模型层的一种会计虚构;用户并不消耗 Token,用户消耗的是结果。如果一个生成 200 个 Token 的总结任务比一个生成 100 个 Token 的任务让用户重试了三次,那么前者并不比后者“贵一倍”。

真正的单位是任务瓦特(task-watts):完成每个用户可见操作所消耗的能量。一个“任务”是指“用户点击总结按钮并获得了一份他们保留下来的总结”。任务瓦特需要将推理日志(包含 Token、模型版本、GPU 类型和批处理上下文信息)与用户操作遥测数据(包含操作是否完成、重试、放弃或升级为人工处理的信息)结合起来。大多数可观测性堆栈都拥有这两部分数据,但几乎没有一个将它们关联起来。

每瓦特 Token 数仍然是一个有用的中间指标——它是放在模型卡(model card)上的正确数字,也是采购部门比较同一模型层级的两个供应商的正确数字。但对于路线图(roadmap)来说,它是错误的数字。一个团队如果通过切换到更小的模型将每瓦特 Token 数降低了 30%,但导致任务完成率下降了 12%,那么他们并没有让产品变得更具可持续性。他们只是将能量消耗从推理调用转移到了用户的第三次尝试中。

聚合所隐藏的差异性

单一的 AI 能耗条目之所以具有误导性,是因为它平均化了三种差异来源,而其中的每一种都是普通团队尚未触及的路线图杠杆。

模型层级(Model tier)。 2026 年的硬件包络意味着,单次文本补全的能耗范围可以从运行在 Blackwell 级 GPU 上的小型量化模型的约 0.05 瓦时,到处理相同提示词的前沿模型(frontier model)的数瓦时。这不是噪声——而是一个路由决策。大多数生产流量都可以适应该范围内的低成本端,而大多数团队无法分辨他们的流量中有多少比例是出于谨慎而非必要被路由到了高成本端。在质量损失可以忽略不计的情况下,进行 4 位或 8 位量化(Quantization)已成为标准做法,并再次改变了曲线。

批处理大小(Batch size)。 推理引擎在大批处理大小时的能耗效率显著更高。与引擎可以将 16 个并发请求打包在一起时相比,以单批次(batch-of-one)提供的相同请求消耗的能量要多出数倍。出于尾部延迟(tail-latency)考虑而将批处理大小固定为 1 的延迟敏感型端点,在每次调用中都在支付这种能量倍数,而仪表盘并没有显示这一点,因为批处理大小是推理引擎的内部参数,而不是一个记录字段。

前缀缓存命中率(Prefix-cache hit rate)。 对于相同的提示词,前缀缓存命中(prefix-cache hit)消耗的能量比冷启动推理(cold inference)少约 90%。具有稳定系统提示词和对话前缀的实际工作负载,在配合正确的调度程序时,通常能达到 80–90% 的缓存命中率;而前缀规范较差的工作负载命中率仅为 20–30%,其余部分则需支付全额能耗。缓存命中率是大多数生产堆栈中最大的单一能量杠杆,它存在于推理层,位于可持续发展团队报告的指标之下。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates