1 篇博文含有标签「model-optimization」

无需微调的知识蒸馏：将前沿模型的能力提取到更廉价的推理路径中

2026年4月19日 · 阅读需 13 分钟

Software Engineer

一个拥有 7.7 亿参数的模型在它擅长的任务上击败了一个拥有 5400 亿参数的模型，这听起来似乎是不可能的。但这正是经过蒸馏的 T5 模型在对抗 few-shot PaLM 时所取得的成就——仅使用了 80% 的训练样本，模型尺寸缩小了 700 倍，且每次推理成本仅为几分之一美分，而不再是数美元。这其中的秘诀并非更好的架构或更巧妙的训练方案。而是利用大模型生成标注数据，并用这些数据来训练小模型。

这就是知识蒸馏（Knowledge Distillation）。而且，你并不需要通过微调教师模型来使其生效。

关于 Tian Pan