1 篇博文含有标签「labeling」

先收敛、后悄然崩溃的评估

2026年6月2日 · 阅读需 12 分钟

Software Engineer

你的每周评估（eval）仪表盘变平了。曾经在 0.71 到 0.78 之间波动的曲线，已经在连续三个发布周期中紧缩成 0.84 左右的一根细线。团队将其解读为达到了天花板——模型已经达到了评分准则（rubric）允许的上限，进一步的工作需要更难的评估。有人安排了一场规划会议来“设计 eval v2”。

这种解读看似合理，有时也确实正确。但还有第二种解释，它会产生同样的图景，并悄悄摧毁你的发布准入信号：你的标注员（无论是人类还是 LLM 评判员）已经在意见上趋同，评估不再是在衡量模型，而是在衡量模型产出标注员心目中“正确”输出形态的能力。

关于 Tian Pan