2 篇博文含有标签「llms」

生产环境中的知识蒸馏：让小模型完成大模型的任务

2026年4月19日 · 阅读需 9 分钟

Software Engineer

一家医疗公司每天用 GPT-4 处理 10,000 份文档，年度账单高达 5 万美元。在用前沿模型的输出对一个 270 亿参数的开源模型进行微调后，相同的工作量仅需 5,000 美元——节省了 90%。这个小模型在他们的特定任务上还比前沿模型高出 60%，因为它已经见过数千个完全正确行为的示例。

这就是现代形式的知识蒸馏：你一次性支付前沿模型 API 费用来生成训练数据，然后永远运行一个小型专用模型。这个算法之所以成立，是因为当你拥有权重时推理成本很低，而且在有足够示例的情况下，特定任务的模型能在窄任务上胜过通用模型。

但"收集输出、微调、上线"并不是完整的方案。大多数尝试蒸馏的团队都会遇到三堵隐形墙之一：劣质的合成数据导致学生学到错误行为，缺乏可靠信号来判断学生何时真正就绪，或者生产环境中出现无声的质量崩溃，直到用户抱怨才被发现。本文涵盖决定蒸馏是否成功的流程决策。

生产环境中的推理模型：何时获益，何时受损

2025年10月31日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一个构建支持分流系统的团队将其分类流水线从 GPT-4o 切换到了 o3。准确率提升了 2%。成本上升了 900%。延迟从 400 ms 跳升至 12 秒。他们最后切回去了。

这是目前生产环境 AI 中最常见的故事。推理模型代表了真正的能力飞跃 —— 在之前没有模型能超过 2% 的 Frontier Math 基准测试中，o3 解决了 25% 的问题。但这种能力伴随着成本和延迟的代价，使得它们在普通生产系统的多数任务中并不适用。理解其中的差异是 AI 工程师现在能掌握的最有价值的事情之一。

关于 Tian Pan