跳到主要内容

1 篇博文 含有标签「latency」

查看所有标签

AI 流水线中的投机执行:通过预判未来大幅降低延迟

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数 LLM 流水线在无意中都表现出极其低效的串行化。一个智能体调用天气 API,等待 300 ms,调用日历 API,再等 300 ms,调用交通 API,再次等待——最后才综合出答案。如果这三个调用是并行运行的,那么原本 900 ms 的总延迟本可以缩短到 300 ms。没有人刻意将系统设计成串行;这只是在编写一个又一个异步调用时自然形成的结果。

预测执行(Speculative execution)是一系列技术的统称,通过在确定需要工作之前提前执行工作来降低感知延迟——运行并行的假设、预取可能的下一步、并同时生成多个候选输出。这些技术直接借鉴了 CPU 设计,自 20 世纪 90 年代以来,处理器就已经开始预测执行未来的指令。应用到 AI 流水线中,同样的本能——押注可能的结果、取消失败的部分、接受偶尔的浪费——可以产生显著的提速。但如果你不仔细考虑应用时机,协调开销也可能会抵消掉所有的收益。