1 篇博文含有标签「serverless」

Serverless AI Agent 的冷启动税

2026年4月10日 · 阅读需 13 分钟

Software Engineer

一个带有精简 Python 处理程序的标准 Lambda 函数冷启动大约需要 250 毫秒。而你的 AI 智能体，在调用相同的运行时并添加了一些 SDK 导入后，冷启动需要 8-12 秒。如果再加上本地模型推理，时间将达到 40-120 秒。第一个触发已缩容部署的用户，在智能体响应之前需要等待一条电视广告的时间。这种差距——不是单次推理 Token 的延迟，也不是吞吐量，而是初始启动成本——正是大多数 Serverless AI 部署在用户体验上悄然失败的原因。

这个问题并非 Serverless 所特有，但 Serverless 让它变得显而易见。当你在常驻（always-on）基础设施上运行智能体时，你是在为闲置容量付费，且冷启动永远不会发生。当你为了降低成本而采用缩减至零（scale-to-zero）的策略时，每一个低流量时期都成为了等待下一个请求的陷阱。

关于 Tian Pan