首个Token在撒谎:为什么上下文加载——而非推理——才是AI功能延迟的真正瓶颈
· 阅读需 11 分钟
大多数关于AI延迟的讨论都搞错了方向。团队痴迷于GPU利用率、模型量化和批处理大小。与此同时,真正让用户感到烦躁的延迟——AI开口说话前的那段停顿——几乎完全由推理开始前发生的事情决定。瓶颈在于上下文,而非算力。
首Token时间(TTFT)是决定AI功能感觉灵敏还是迟钝的关键指标。而TTFT主要由预填充阶段主导:在生成任何输出Token之前,处理完整输入上下文所需的时间。对于128K Token的上下文,预填充可能耗时数秒。GPU在努力工作,但用户什么也看不到。
解决方案不是更好的GPU,而是在用户提问之前就预先加载好上下文。
这正是上下文预热工程师所做的事:他们构建基础设施,在正确的时机将正确的Token就位,使得当用户消息到达时,预填充成本已经提前支付了一部分。这是一门独立于推理优化的工程纪律,将两者混为一谈会导致团队把钱花在算力上,而用户依然在等待。
