跳到主要内容

1 篇博文 含有标签「llms」

查看所有标签

生产环境中的推理模型:何时获益,何时受损

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。

这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中,o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价,使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。