跳到主要内容

1 篇博文 含有标签「distillation」

查看所有标签

知识蒸馏经济学:压缩尖端模型何时能真正产生回报

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数在 GPT-4o 上砸钱的团队首先尝试的都是同一件事:换成更便宜的模型。GPT-4o mini 的单 token 价格便宜了 16.7 倍,Llama 3.1 8B 甚至可以几分钱就完成私有化部署。但质量的下降会导致生产环境崩溃 —— 在前沿模型上得分 94% 的分类任务在较小模型上跌至 71%,或者提取流水线开始幻觉出源文档中根本不存在的字段。因此,团队要么留在昂贵模型上继续付费,要么接受质量下降。

知识蒸馏提供了第三条路径:专门训练一个小模型,让它在你的特定任务上复制大模型的行为,而不是追求通用语言理解。如果方法得当,你可以用小模型的速度和成本获得接近前沿模型的准确率。如果方法不对,你就会以 10 倍的生产规模继承教师模型“自信地犯错”。本文将讨论你会得到哪种结果,以及这种方案在经济上何时真正可行。