跳到主要内容

能力激发差距:升级到更新模型为何会破坏你的产品

· 阅读需 10 分钟
Tian Pan
Software Engineer

你升级到了最新模型,结果产品却变差了。不是灾难性的崩溃——新模型在基准测试中得分更高,能处理更难的问题,拒绝的不该拒绝的内容也更少了。但你的产品实际需要的那项能力?退化了。你精心调优的提示现在产出的是模棱两可、过度修饰的输出,而你需要的是明确的断言。你的领域特定格式指令被"贴心地改进"成了通用格式。那种让工作流程可靠运行的严格指令遵从感,现在像是在自动驾驶。

这就是能力激发差距:模型在原则上能做什么与它在生产环境中你的提示下实际做什么之间的鸿沟。而随着每一轮以安全为重点的训练循环,这个差距系统性地扩大。

理解这一现象发生的原因——以及如何应对——是构建在前沿模型之上的团队面临的最重要的工程问题之一。

为什么安全训练会抑制特定能力

通过 RLHF 及其变体(DPO、Constitutional AI)进行的训练后对齐,在广泛期望的维度上提升了模型:降低了毒性、改善了对有害内容的拒绝率、提高了不确定性的校准度。但这些改变并非免费的。它们通过调整模型权重来改变跨所有输入的行为,而不仅仅是有害输入。

这里的机制很重要。安全行为并非被干净地隔离——减少有害输出的梯度更新,也会抑制某些恰好与危险行为相关的词符分布。自信的断言使用的语言模式与错误信息相似。领域术语与可能被滥用的专家知识存在重叠。以牺牲警示语为代价的精确指令遵从,在恶意情境下看起来像是操纵。因此,训练在全局范围内压制这些模式。

研究已将这正式描述为"对齐税":对齐税率随安全训练方向在能力子空间上投影的平方而缩放。通俗地说:安全训练对通用能力空间的干扰越多,你在生产任务中的损失就越大。更新的论文表明,这在推理模型中尤为明显,在这些模型中,安全对齐明显降低了逐步推理的质量。

从业者常常忽略的关键洞见:能力并未被销毁,而是被抑制了。模型仍然可以访问那些行为——权重并没有被归零。它们只是被向下加权,使其更难触发。这就是为什么激发(elicitation)有效。

什么实际上会退化,以及为何难以察觉

并非所有的能力退化都是等价的。对生产系统伤害最大的退化分为几种模式:

指令遵从漂移。 模型遵从你指令的精神而非字面意思。你要求一个恰好有这五个字段的 JSON 对象,结果得到六个字段,因为模型认为多一个字段更有帮助。这种漂移很微妙——输出看起来是对的,但下游解析失败。

果断性崩溃。 更新的对齐模型会添加旧版本跳过的回避语和限定词。GPT-3.5 会写"答案是 X",而更新的安全调优模型则写"值得注意的是,X 通常被认为是答案,但这可能因情况而异。"这对通用聊天机器人来说无所谓,但对于需要权威语气的应用——面向客户的通信、领域专家模拟、结构化决策工具——这是致命的。

风格和格式抑制。 如果你的应用依赖特定的输出格式(特定的 Markdown 结构、代码风格、长度限制),新模型可能会用其训练认为"更好"的格式来覆盖它。模型已经从 RLHF 信号中吸收了足够多关于"好输出"长什么样的偏好,以至于你的明确指令与其内化的偏好相互竞争。

领域词汇规范化。 在广泛安全语料库上微调的模型,往往会将领域特定语言规范化为通用替代词。医学、法律、金融和技术领域都有精确词汇,词语选择至关重要。对齐模型可能系统性地用通俗解释替换精确术语。

这些退化难以察觉的原因:标准基准测试分数无法捕捉它们。MMLU 衡量知识广度,HumanEval 衡量代码正确性,两者都无法捕捉你的特定格式是否被保留,或者你的语气要求是否被满足。你需要自己的评估套件——而大多数团队只有在第一次痛苦的退化之后才会构建它。

在上线前检测退化

这里的基本原则是将模型升级视为软件依赖升级:不运行测试套件就不上线。挑战在于构建那个测试套件。

构建黄金数据集。 从你的生产流量中取 50–200 个有代表性的输入,最好涵盖你的产品处理的各类用例的分布。包括之前让你踩坑的边界情况。对于每个输入,创建一个参考输出或一组好的输出必须满足的标准。这个数据集就是你的回归基准。

加载中…
Let's stay in touch and Follow me for more thoughts and updates