跳到主要内容

6 篇博文 含有标签「model-selection」

查看所有标签

推理模型套利:在处理难题时,慢速昂贵模型反而更省钱

· 阅读需 11 分钟
Tian Pan
Software Engineer

价格页面上最便宜的那一行很少是发票上最便宜的一行。团队选择主力模型(Workhorse model)——Sonnet、Haiku、Flash、GPT-mini——是因为每 token 的计算方式很友好。上线功能后,看着成本控制面板报告了一个季度的单位经济效益(unit-economics)好消息。然后长尾效应跟了上来:主力模型处理不了一部分请求,开始重试,接着是部分回答,最后升级到人工审核,每个功能的损益表(P&L)不再像每次调用的仪表盘那样好看了。

这里的套利在于,针对这些困难请求,团队永远不会作为默认选项的推理模型(Reasoning model)——Opus、o3,这类缓慢昂贵的模型——通常在第一次尝试时就能给出答案。一次 0.50 美元的推理调用总成本,胜过五次 0.05 美元的主力模型调用加上升级队列,以及周一调试失败的工程师成本。采购问题(哪个模型每 token 最便宜?)和架构问题(哪个模型解决每个请求最便宜?)是不同的问题,将两者混为一谈的团队正在支付这两者之间的差价。

评估天花板:当你的黄金测试用例失去区分度时

· 阅读需 11 分钟
Tian Pan
Software Engineer

一年前,你的评估套件(eval suite)表现得非常出色。候选模型的得分分布在 60 到 80 分之间,排名结果能为你提供有效的参考。新的微调模型比基准模型高出 6 分;更廉价的模型则低了 3 分。决策依据这些数字而产生。而今天,在同样的评估套件下,每个候选模型的得分都是 95、96 或 97 分,得分差距已经缩小成了噪音。你的团队仍在运行评估,仍在阅读报告,仍在利用它为迁移亮绿灯——但这份报告已经不再包含任何有效信息。

这不是基准测试污染(benchmark contamination),也不是世界漂移引起的衰减(world-drift decay)。这是一个测量工具的问题:你的测试用例是针对平台已经超越的难度水平而校准的。尺子没有坏;而是你正在测量的东西已经超出了它的量程。那些没有意识到这一点的团队,仍然在使用一个辨别范围与所比较的候选模型不再重叠的工具来进行模型决策。

小模型,大账单:为什么单 Token 成本更低反而更贵

· 阅读需 10 分钟
Tian Pan
Software Engineer

由财务主导的“切换到更小模型”的指令,是让你的 LLM 账单季度环比增长最可靠的方式之一。采购团队盯着的仪表盘——单次调用成本、每次请求的平均 token 数——一直在下降。与此同时,发票金额却在不断攀升。当有人终于把这两者对上账时,团队已经花了六个月的时间进行提示词(prompt)迭代,以补偿那个在任务处理上表现更差的模型,而且团队已经陷得太深,如果不承认最初的切换是个错误,就无法走回头路。

错误不在于定价,而在于计量单位。当推理深度、重试次数和提示词大小都随模型而异时,单 token 价格是一个具有误导性的维度。正确的指标是“单次成功完成所需的 token 数”,在这个维度上,更便宜的模型往往会输。

在写第一个提示词之前,如何选对 LLM

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队选择 LLM 的方式,和十年前选数据库一样:看一张对比表,挑出最关心那一列得分最高的,然后开始构建。六个月后,他们要么在迁移,要么疑惑为什么评估结果和用户实际体验截然不同。基准没有错——只是模型选错了。

错误不在于选了错误的模型,而在于还没搞清楚自己的生产任务分布就急着选模型。基准测试的是别人认为重要的东西;你的生产系统有完全不同的分布。这两件事根本不是一回事。

“够用就好”的模型选择陷阱:为什么你的团队在为 AI 支付冤枉钱

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队发布第一个 AI 功能时都会使用最好的模型,因为演示(demo)就是在那上面跑的,而且没人有时间深入思考。接着第二个功能也用了同样的模型。然后是第三个。六个月后,每个功能的每次调用都指向了前沿层级(frontier tier)——而账单比实际需要的数额高出五到十倍。

令人不安的事实是,你的生产系统处理的 40%–60% 的请求根本不需要前沿级别的推理。它们只需要称职的文本处理。而购买称职的文本处理服务的成本要低得多。

生产环境中的推理模型:何时获益,何时受损

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。

这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中,o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价,使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。