跳到主要内容

3 篇博文 含有标签「forecasting」

查看所有标签

绑定到你不再符合条件的定价层级的成本预测

· 阅读需 11 分钟
Tian Pan
Software Engineer

使用曲线几乎没变。账单却上涨了 38%。

这是某中型金融科技公司的财务主管在季度第一个周一收到的邮件。三个月前,工程部门重新谈判了他们的 LLM 推理合同,通过承诺最低使用量,从谈判后的单价中又削减了相当大的一部分。财务模型将新的单价纳入了财年预测。没有人留意到定价表中的脚注:如果月度使用量连续三个月低于底线,折扣将失效。4 月至 5 月的季节性流量下降正好触发了这一条款。供应商将账户重新分档回原价。工程部门没有收到任何通知,因为通知发到了采购部门的收件箱,而自合同签署以来,那里就没人读过邮件。

误将假期低谷视为新基线的 Token 预测

· 阅读需 10 分钟
Tian Pan
Software Engineer

一位容量规划师带着基于干净的过去四周回溯窗口构建的 Token 预测走进了季度预算审查会议。这四周中有三周恰好跨越了一个地区性假期。在此期间,日活跃会话下降了 40%。预测结果比 Q+1 的实际消耗低了 35%,限流仪表盘在新季度的第一天就全线飘红,而复盘发现模型的表现完全符合预期——它计算了最近四周需求的平均值并进行了向前预测。模型没有错。错的是窗口。

这不是一个关于蹩脚预测者的故事。这是一个关于将 LLM Token 支出视为与它共用成本中心的 EC2 账单相同形态的故事。EC2 账单受你控制的基础设施决策支配:配置的实例、预留容量以及响应负载的扩展策略。而 Token 账单则受决定休长假的用户的支配。前者是工程输出,后者是消费者需求。如果规划者混淆了两者,就会不断地在日历确保是非平稳的窗口上构建预测。

推理成本预测:财务团队想要而你写不出来的容量规划

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的财务团队会要求你提供一份你写不出来的容量规划。这不是因为你缺乏经验,也不是因为模型是新事物,而是因为经典容量规划所依赖的两个假设——可衡量的负载分布和在季度维度上稳定的单位成本——在 AI 工作负载面前都失效了。你交给他们的数字从第一天起就会是错的,而当偏差出现时,随后的讨论将不仅仅关乎账单。

《2026 年 FinOps 现状报告》将 AI 列为增长最快的新支出类别,大多数受访者表示 AI 成本超出了最初的预算预测——对于许多企业来说,推理现在消耗了 AI 账单的大部分。用 SaaS 风格的容量规划来管理它的本能反应——选择一个峰值 QPS,乘以单位成本,再加上 30% 的缓冲——产生的数字看起来像预测,其实际预测能力却如同占星术。你真正需要的容量规划看起来更像是 FinOps 场景模型,而不是采购电子表格,而生成它所需的工程工作属于平台工作,会一直与功能开发竞争资源,直到财务部门失去耐心。