误将假期低谷视为新基线的 Token 预测
一位容量规划师带着基于干净的过去四周回溯窗口构建的 Token 预测走进了季度预算审查会议。这四周中有三周恰好跨越了一个地区性假期。在此期间,日活跃会话下降了 40%。预测结果比 Q+1 的实际消耗低了 35%,限流仪表盘在新季度的第一天就全线飘红,而复盘发现模型的表现完全符合预期——它计算了最近四周需求的平均值并进行了向前预测。模型没有错。错的是窗口。
这不是一个关于蹩脚预测者的故事。这是一个关于将 LLM Token 支出视为与它共用成本中心的 EC2 账单相同形态的故事。EC2 账单受你控制的基础设施决策支配:配置的实例、预留容量以及响应负载的扩展策略。而 Token 账单则受决定休长假的用户的支配。前者是工程输出,后者是消费者需求。如果规划者混淆了两者,就会不断地在日历确保是非平稳的窗口上构建预测。
窗口假设比模型本身发挥了更大的作用
每一个回溯窗口预测器——无论是移动平均、指数平滑、对最后 N 个点的 ARIMA 拟合,甚至是由于你提供了上个月数据而生成的基于 LLM 的基础预测模型——都包含着同样的隐含声明:产生这个窗口的分布就是产生下一个窗口的分布。正是这个假设许可了外推。而这恰恰也是日历不断违反的。
日历以显而易见和微妙的方式违反它。显而易见的方式包括:国家法定假日周、学校暑假、农历新年期间的地区性停工。微妙的方式包括:过去四周恰好包含两次产品发布和一次宕机;过去四周恰好是使用量激增的续约周期前的冲刺阶段;过去四周是营销活动后的发布后低谷。在每种情况下,假设平稳性的预测器都会在数据实际上是已知冲击的地方看到噪声。
当窗口长度和冲击长度相当时,这种病态表现得最为明显。28 天窗口内的一天假期会使平均值偏离一个百分点。四周窗口内的一个假期周会使平均值偏离 25%。在同一个窗口内出现为期三周的地区性假期——比如许多亚太市场的农历新年,或欧洲大部分地区的八月——窗口中的假期部分就超过了基线。预测器不再是计算趋势加季节性噪声的平均值;它是在对波谷进行平均,并将其作为“新常态”推向未来。
为什么 LLM 开销的行为更像消费者需求,而非基础设施成本
传统的基础设施容量规划通常可以蒙混过关,因为其预测的成本在短期内与用户行为是脱钩的。你配置了 100 个实例;它们在周一和周六的成本是一样的。账单会响应自动扩展,但自动扩展响应负载存在滞后,且闲置实例的边际成本受其小时费率的限制。方差相对于均值较小。
LLM Token 支出的形态则完全相反。空闲会话的边际成本为零——当没有人调用模型时,你不需要支付费用——但活动会话的边际成本是该会话生成的 Token 数量的函数,而这又是用户如何提示的函数。没有预设的保底容量来吸收方差。会话量、会话长度、提示词冗长度以及上下文窗口深度的每一次波动,都会以全幅度呈现在每日账单中。日活跃会话下降 40% 意味着支出下降 40%。没有你忘记释放的实例来平滑信号。
这对预测的影响令人不安:LLM 容量规划的正确参考类别不是服务器容量规划,而是零售需求规划。零售商花了数十年时间才意识到,你不能用非假期季度来预测假期季度,反之亦然;像农历新年和复活节这样变动的假期会破坏月度环比比较;而且在波谷上训练的基线模型会系统性地低估峰值。对于管理 LLM 预算的团队来说,需求预测中关于假期效应建模的文献不是选读书目,而是操作手册。
预测器不知道它正在读取一个波谷
这种失败模式最危险的版本是:预测输出中没有任何内容显示输入窗口是异常的。预测器摄取时间序列,拟合模型,向前预测,并给出一 个数字。这个数字并不附带一个足够宽的置信区间,以承认窗口中包含了一个已知的外部事件。规划者看到一条干净的线条和一个狭窄的范围,然后满怀信心地走进了预算审查会议。
来自朴素回溯窗口方法的置信区间是根据窗口内观察到的方差计算的,在假期波谷期间,这个方差通常极低,正是因为每个人都在做同样的事情——不使用服务。区间在应该变宽的时候反而变窄了。你得到了一个具有极高表面精度、但对即将到来的状态转变(regime change)实际覆盖率为零的预测。
这正是零售商几十年来努力避免的统计学错误:信任一个其误差模型是在日历已经告诉你具有非代表性的窗口上估算的预测。解决方法不是更好的拟合,而是一个外部信号,当已知窗口具有误导性时,由该信号覆盖窗口数据。
- https://www.digitalapplied.com/blog/token-economics-vocabulary-guide-llm-cost-2026
- https://redis.io/blog/large-language-model-operations-guide/
- https://www.silicondata.com/blog/llm-cost-per-token
- https://devtk.ai/en/blog/ai-api-rate-limits-comparison-2026/
- https://www.mindstudio.ai/blog/anthropic-compute-shortage-claude-limits
- https://www.preprints.org/manuscript/202601.0840
- https://www.census.gov/content/dam/Census/library/working-papers/2018/adrm/rrs2018-01.pdf
- https://eyeonplanning.com/more-accurate-forecasting-during-moving-holidays/
- https://arxiv.org/abs/1811.02215
- https://www.nixtla.io/blog/baseline-forecasts
