1 篇博文含有标签「queue-design」

批处理 LLM 流水线的盲点：离线处理与无人提及的队列设计

2026年4月10日 · 阅读需 14 分钟

Software Engineer

大多数使用 LLM 构建产品的团队都在针对错误的工作负载进行优化。他们过分痴迷于首个 token 生成时间（time-to-first-token）、流式传输延迟和响应速度——结果却发现，其 LLM API 支出的 60% 或更多实际上流向了无人实时监控的夜间摘要任务、数据扩充流水线和分类运行。适用于聊天应用的“延迟优先”思维模式正在主动破坏这些离线工作负载。

LLM 批处理流水线是生产环境 AI 中那些不起眼但至关重要的“劳模”。它是每晚对 50,000 张工单进行分类的任务，是每周用公司描述丰富 CRM 的流水线，也是每天为新文档生成嵌入（embeddings）的运行任务。这些工作负载的设计约束与实时服务有着本质的不同。如果将它们视为聊天 API 的“慢速版本”，问题就由此产生了。

关于 Tian Pan