权重中的幽灵:预训练残留如何在生产环境中破坏你的微调模型
你的微调模型在评估套件上达到了 93% 的准确率。你将其上线。三周后,一位客户发来截图:模型以十足的自信回答了一个从未出现在训练数据中的问题——而且答错了。这并非通常意义上的幻觉,而是一段记忆。一种在预训练阶段烙入权重的模式,在微调从未覆盖的分布上死灰复燃。这就是预训练残留(pretraining residue),也是生产微调中最容易被忽视的故障模式之一。
微调调整的是权重,而不是从头重新训练模型。在万亿 token 规模预训练期间形成的模式——校准机制、置信度信号、世界模型先验——依然留存于权重之中。无论你的微调数据集多么精心策划,它都只是叠加在更深层先验之上的薄薄一层。当输入落在你的微调分布之外时,模型不会说"我不知道",而是回溯到预训练,自信地给出答案。
预训练残留究竟是什么
"预训练残留"这个术语描述的是微调模型中持续存在的行为指纹——因为微调从未完全覆盖预训练期间编码的信号。要理解这种现象,需要先理解两个阶段之间的不对称性。
预训练在来自海量多样语料的数千亿乃至数万亿 token 上进行训练。模型由此建立起通用表征:语法、世界事实、推理模式,以及——至关重要的——一种隐式习得的"知道什么"与"应当保留何种不确定性"的判断能力。这种置信度校准并非独立模块,而是烙印在每一层权重分布中。
微调在数千至数百万个特定任务样本上进行训练,将输出分布向目标任务偏移。但底层表征及其校准属性的变化远比工程师预期的要小得多。分别测量微调期间准确率与置信度变化的研究揭示了一个耐人寻味的规律:在与预训练知识重叠的数据上,置信度持续攀升,而准确率却早早触顶。仅仅 200 步训练后,准确率便不再提升——但模型的置信度还在持续升高。
这种校准失效正是预训练残留的核心所在。微调后的模型在评估数据上表现出色,因为评估数据不可避免地与训练分布相似。但一旦将其指向新颖输入——偏离微调模板的客户查询、边缘案例、领域偏移——模型便自信地从预训练中做出外推,而非依赖它实际被教导的内容。
生产故障模式:自信且错误
"权重中的幽灵"这一故障具有特定的形态,使其在上线前尤难察觉:
模型输出 流畅。 预训练植入了生成连贯、自信文本的强烈先验。当微调模型遇到分布外(OOD)输入时,输出的不是乱码,而是风格与微调一致、听起来合情合理的答案。故障是语义层面的,而非句法层面的。
模型不会留有余地。 最近研究的一个反直觉发现:当模型在回答前进行思维链推理时,其置信度会升高——但当最终答案错误时,置信度的提升幅度反而大于答案正确时。推理让模型在错误答案上更加笃定,而非更加谨慎。如果你因为思维链提升了基准分数而将其加入微调,你可能已经在 OOD 输入上放大了校准失效。
错误表面对你的评估套件不可见。 你的评估数据集来自与训练数据相同或相近的分布,模型在那里表现良好。OOD 故障只在生产环境中浮现——用户带来的输入超出你的预料。
故障随 prompt 复杂度而加剧。 简单直接的 prompt 指向熟悉输入,是微调效果最佳之处。复杂的多部分查询——或那些部分匹配微调领域但在特定方面存在偏差的输入——正是预训练填补空白的地方。模型回答的是它被训练去回答的问题,而非实际被问到的问题。
为何你的微调数据本身就是问题的一部分
大多数团队低估了微调数据与预训练数据的重叠程度。模型此前已见过你所在领域的各种版本。医疗记录、法律文件、客服记录、代码——这些都以海量形式存在于互联网、论文和公共数据库中。当你在领域特定数据上微调时,往往是在强化模型已经部分习得的模式,而非传授真正新颖的内容。
实际结果是:模型迅速"记起"了你领域中熟悉的部分,并以高置信度内化它们;而任务中真正新颖的部分——边缘案例、领域特定术语、不寻常的模式——却得不到足够的权重更新来取代预训练先验。你最终得到的模型在简单案例上表现出色(这些案例已被预训练部分覆盖),却在困难案例上自信地犯错(这些案例未被预训练覆盖)。
还有一种相反的故障模式:灾难性遗忘。在序列任务上微调时,模型可能会覆写早先习得的能力。近期机制分析识别出微调期间并行发生的三种原因:注意力头重组(15-23% 的注意力头经历严重的熵值偏移)、中间层的表征漂移,以及先前习得任务周围损失景观的平坦化。在任务 B 上微调之前,模型在任务 A 上表现出色,微调之后可能在任务 A 上显著退化——不是因为习得了不兼容的内容,而是权重更新置换了支撑 A 的表征。
这两种故障模式——遗忘得不够(残留渗透)与遗忘得过多(灾难性覆写)——都源于同一根本原因:微调相对于预训练是浅层的,而残留与遗忘之间的平衡,若缺乏工具化监控,便无法可靠地调校。
- https://arxiv.org/html/2505.20903v1
- https://arxiv.org/html/2501.09775
- https://arxiv.org/html/2601.18699v1
- https://arxiv.org/abs/2308.08747
- https://arxiv.org/html/2410.10880v1
- https://arxiv.org/html/2410.10739v1
- https://arxiv.org/abs/2306.01708
- https://arxiv.org/html/2504.12585
- https://arxiv.org/abs/2305.18290
