无需微调的知识蒸馏:将前沿模型的能力提取到更廉价的推理路径中
· 阅读需 13 分钟
一个拥有 7.7 亿参数的模型在它擅长的任务上击败了一个拥有 5400 亿参数的模型,这听起来似乎是不可能的。但这正是经过蒸馏的 T5 模型在对抗 few-shot PaLM 时所取得的成就——仅使用了 80% 的训练样本,模型尺寸缩小了 700 倍,且每次推理成本仅为几分之一美分,而不再是数美元。这其中的秘诀并非更好的架构或更巧妙的训练方案。而是利用大模型生成标注数据,并用这些数据来训练小模型。
这就是知识蒸馏(Knowledge Distillation)。而且,你并不需要通过微调教师模型来使其生效。
