在写第一个提示词之前,如何选对 LLM
大多数团队选择 LLM 的方式,和十年前选数据库一样:看一张对比表,挑出最关心那一列得分最高的,然后开始构建。六个月后,他们要么在迁移,要么疑惑为什么评估结果和用户实际体验截然不同。基准没有错——只是模型选错了。
错误不在于选了错误的模型,而在于还没搞清楚自己的生产任务分布就急着选模型。基准测试的是别人认为重要的东西;你的生产系统有完全不同的分布。这两件事根本不是一回事。
大多数团队选择 LLM 的方式,和十年前选数据库一样:看一张对比表,挑出最关心那一列得分最高的,然后开始构建。六个月后,他们要么在迁移,要么疑惑为什么评估结果和用户实际体验截然不同。基准没有错——只是模型选错了。
错误不在于选了错误的模型,而在于还没搞清楚自己的生产任务分布就急着选模型。基准测试的是别人认为重要的东西;你的生产系统有完全不同的分布。这两件事根本不是一回事。
大多数团队发布第一个 AI 功能时都会使用最好的模型,因为演示(demo)就是在那上面跑的,而且没人有时间深入思考。接着第二个功能也用了同样的模型。然后是第三个。六个月后,每个功能的每次调用都指向了前沿层级(frontier tier)——而账单比实际需要的数额高出五到十倍。
令人不安的事实是,你的生产系统处理的 40%–60% 的请求根本不需要前沿级别的推理。它们只需要称职的文本处理。而购买称职的文本处理服务的成本要低得多。
一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。
这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中,o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价,使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。