随时间波动的质量偏移:为什么你的 AI 功能在东部时间上午 10 点表现不同
太平洋时间凌晨 2 点,你的评估套件(eval suite)在平静的提供商环境下全绿通过。上线前一晚 11 点,QA 进行了冒烟测试。功能正式发布。到了周二上午 10 点(东部时间),你的 p95 延迟比你签字认可的仪表盘高出了 40%,你的智能体(agent)在一个包含六步的计划中丢掉了最后一个工具调用,而你的支持信箱塞满了听起来如出一辙的工单:“今天早上 AI 表现很奇怪。” 谁都没错。模型也没错。错的是评估集 —— 它从未见过饱和的提供商环境,因此对于当队列深度翻倍、截止时间预算(deadline budget)崩溃时功能会如何表现,它无法给出任何参考建议。
提供商负载不仅仅是一个伴随质量副作用的延迟问题。它是你的模型和智能体循环接收到的输入的一种分布偏移(distribution shift),而你所信任的每一个质量信号,都是建立在这个分布中错误的那一截之上的。解决办法不是换一个更快的区域或更好的模型。解决办法是停止假装你的评估框架是在与你用户相同的世界中进行采样。
评估套件正在对虚构场景进行采样
大多数团队在低流量窗口期针对“冷”提供商运行评估,因为那时没有其他事情干扰,运行成本更低,且变异性(variance)更小。变异性低是因为提供商没有负载。于是,评估套件将团队对“模型能做什么”的思想模型锚定在了推理集群的行为上 —— 而该集群可能仅以 30% 的利用率运行,拥有空余的批处理能力和自动扩缩容空间。
东部时间周二上午 10 点的生产环境则是另一番景象。公开基准测试显示,OpenAI 的 GPT-4o 首字延迟(TTFT)在高峰和非高峰时段之间可能有 2–4 倍的波动,范围大约在 300ms 到 800ms 之间;而 Anthropic 的 Claude 的 TTFT 大约在 400–900ms 之间,在负载下的变异性更小。这些只是厂商公布的数据。它们未能捕捉到建立在延迟之上的二阶效应:当令牌流(token-stream)变慢时,你的客户端截止日期会更早触发,你的智能体循环在计划中途耗尽预算,而你的重试路径所使用的 Prompt 与你的评估套件曾经评估过的略有不同。
你测量的是模型质量的天花板。而用户在提问的那一刻得到的是整个联合系统 —— 模型、提供商负载、网络路径、你自己的截止时间预算、你的降级链 —— 的底线。当你最需要评估天花板和生产环境底线达成一致时,它们的背离却最为严重。
