1 篇博文含有标签「rlaif」

RLAIF 末日循环：当廉价的反馈信号悄然毒害你的微调模型

2026年4月27日 · 阅读需 12 分钟

Software Engineer

我在上个季度交流过的一个团队在 8 周内发布了 4 轮偏好微调（preference fine-tuning）。每一轮，他们相对于上一个 Checkpoint 的离线胜率都在上升。每一轮，他们的 LLM-as-judge 都确认模型变得更好了。每一轮，他们的留存曲线（retention curve）都下垂得更厉害了一点。到第 4 轮时，裁判（judge）表示模型比 v0 基准提升了 71%；而用户的流失速度比开始前快了 9%。这就是一段话总结的 RLAIF 毁灭循环（doom loop），而残酷的是：该团队的流水线在技术上没有任何错误。

来自 AI 反馈的强化学习（RLAIF）—— 即使用更强的模型来生成你以前付钱请人标记的偏好标签 —— 是现代后训练（post-training）中最具经济合理性的决策之一。AI 生成的标签每个不到 1 美分；而人工标签则需要 1 美元甚至更多，对于特定领域的工作，价格通常是这个数字的 10 倍。在偏好数据集规模（数十万对数据）下，这就是六位数预算与五位数预算的区别。已发布的 RLAIF 基准测试显示，在摘要和对话任务上，其胜率在统计学上与 RLHF 无法区分。数学计算的结果是：切换到 RLAIF。

在单位成本方面，数学计算是对的；但在你购买的内容本质上，它错了。你买的不是偏好数据。你买的是裁判的偏好，并将其投影到你的数据上 —— 经过多轮训练，这种区别就体现为“与用户对齐”和“与另一个模型的审美对齐”之间的鸿沟。

关于 Tian Pan