闲置智能体税:当用户在开会时,你的 AI 会话到底产生了多少成本
一名开发者在 9:00 打开 IDE 的 Copilot,在早会前问了三个问题,然后一直开会到 11:30。聊天面板仍然打开着,对话依然可以滚动查看。模型在两个半小时内没有生成一个 token。然而,这个无人问津的会话整个上午都在悄悄地产生费用。KV 缓存被占用。提示词缓存(Prompt cache)通过定期 ping 保持活跃。对话状态保存在热存储(hot store)中。追踪流水线每跳动一次心跳就写入一行记录。模型提供商预留了并发槽位。乘以一万个席位,这笔账单是真实存在的。
这就是“闲置智能体税”(idle agent tax)。它是你推理预算的一部分,用于支付用户并未使用的容量。由于大多数工程仪表盘是为无状态 API 构建的,因此它在仪表盘上是不可见的。一个请求进来,一个响应出去,容器关闭。搞定。智能体产品在两年前就打破了这一模型,而大多数团队尚未根据这一变化重新调整其架构的成本模型。
