1 篇博文含有标签「preference-data」

预算有限下的偏好数据：无需研究团队即可捕获 RLHF 信号

2026年4月18日 · 阅读需 12 分钟

Software Engineer

大多数尝试使用 RLHF 微调语言模型的团队在开始之前就放弃了。典型案例是 OpenAI 的 InstructGPT：33,000 个偏好对、13,000 个有监督演示、一个专门的外包团队，以及一个需要数周时间才能稳定的强化学习流水线。如果这就是门槛，那么大多数产品团队根本玩不起这个游戏。

他们错了。现在的门槛已经没那么高了。2024–2025 年的研究共识已经悄然改变：数据质量胜过数据量，DPO 完全取代了 RL 基础设施，而最有价值的偏好信号其实已经流经你的产品，只是未被记录。看起来是研究团队的问题，实际上是埋点（instrumentation）问题。