你那两个独立的评估指标正不断破坏拒绝校准

2026年6月2日 · 阅读需 14 分钟

Software Engineer

调出过去四次模型升级的仪表盘，查看安全指数（safety number）旁边对应的帮助指数（helpfulness number）。在每次发布中，总有一个指数在变动，而且几乎从不是同一个。负责安全评估的团队发布了一个“将拒绝加固提升了 6 个点”的修复程序，三周后，负责帮助性评估的团队发布了一个“在合法查询完成度上恢复了 5 个点”的修复程序。然后，循环再次开始。

这并不是两个团队在各自取得独立进展。而是一个模型在沿着同一个轴摆动，而组织却在用两把相反的尺子测量它，每把尺子上所谓的胜利都是另一把尺子上无声的损失。刚刚庆祝了安全性能提升的团队，在不经意间发布了一个拒绝更多合法医疗问题、法律问题和“如何做”问题的模型——而这些问题的词干恰好看起来像训练数据中的不安全内容。由于这种帮助性的倒退属于不同的冲刺周期、不同的负责人和不同的仪表盘，因此它被忽视了。

这种“双重评估”的设计初衷似乎很严谨。它可审计，产生看似正交的数字，并允许两个团队并行工作。但它在结构上保证了优化过程会在每个循环中用一个数字交换另一个数字，因为这些指标实际上并非正交——它们是模型在处理每一个请求时所做的同一个决策的两种投射，而评估设计掩盖了这一决策本是同一个决策的事实。

双重评估机制正在从相反的两端测量同一个轴

在通常的形式中，安全评估是一组有害或双重用途的提示词，其中标记的“正确”行为是拒绝。拒绝得分高；顺从得分低。当模型拒绝更多此类提示词时，该指标就会上升。

而在通常的形式中，帮助性评估是一组合法的提示词，其中标记的“正确”行为是回答。顺从得分高；拒绝得分低。当模型回答更多此类提示词时，该指标就会上升。

如果你将模型的行为描绘成一个关于“我现在应该多谨慎”的单一决策阈值，那么这两个指标就是从相反的两侧测量该阈值。将阈值向谨慎方向移动，安全评估会提升，而帮助性评估会下降。将其向顺从方向移动，帮助性评估会提升，而安全评估会下降。仪表盘测量的不是独立的能力；它们是通过两个互补的透镜观察到的同一个刻度盘。

这就是帕累托前沿（Pareto frontier）的结构形态。最近的研究正式阐明了这种几何关系——当研究人员仅针对安全性、仅针对帮助性或按顺序针对两者进行偏好优化时，生成的模型会落在一条大致线性的前沿上，而不是发现一个能同时兼顾两个轴的最优解。即使在同一次训练中同时针对这两个目标，往往也只是产生前沿上的另一个点，而非实质性的提升。前沿存在于模型的实际行为中。而双重评估机制隐藏了它。

隐藏前沿会产生组织层面的后果。当负责安全仪表盘的团队发布一个加固变更时，他们在自己的图表上看到了一个漂亮的向右上方移动的趋势。但在同一张图表上，他们看不到自己刚刚给合法查询群体强加的代价。帮助性团队会在两周后在他们的仪表盘上看到这一代价（表现为性能倒退），并将其视为一个需要解决的新问题，而不是前一次“胜利”的必然结果。两个团队轮流前后拨动刻度盘，每一步在局部都是理性的，但每一步都在抵消前一步。模型在前沿上的表现从未提升；它只是在前沿上滑动。

你真正需要的指标是“正确的行动”，而非“拒绝”或“回答”

解决方案不是增加第三个评估来合并另外两个。解决方案是认识到，“拒绝”和“回答”是模型在处理每个请求时所做的选择中的两种，而你一直需要的指标是模型是否在该特定请求中做出了正确的选择——而不是它是否在整个测试集中选择了某一种特定行为。

具体来说，每个评估案例都应该携带一个标记为“正确行动”的目标，而不是标记为“正确输出”。对于明显有害的查询，正确行动是拒绝。对于明显良性的查询，正确行动是回答。对于真正模糊的中间地带——即查询可能是一个合法的专业问题，也可能是某些不安全意图的伪装——正确行动很少是生硬的“是”或“否”；它通常应该是澄清、带有安全警告的回答、回答安全的部分并标记不安全的部分，或者在某些情况下 部分回答并拒绝危险细节。一个校准良好的模型会根据每个请求从中选择行动；一个设计良好的评估会奖励选择正确的行动，并惩罚任何其他选择——包括以同样的严厉程度惩罚对良性查询的 过度谨慎 选择和对有害查询的 盲目顺从 选择。

这种重构有几个值得明确的机制性后果。

首先，分析单位从“模型是否产生了拒绝”转变为“模型是否产生了该案例标记的行动”。在有害案例中拒绝与在良性案例中回答的得分相同：两者都是正确的行动。在良性案例中的过度拒绝与在有害案例中的拒绝不足得分相同：两者都是错误的行动。评估不再能通过统一增加或减少谨慎度来作弊，因为任何一种变动都会导致一种正确行动与一种错误行动的互换，从而使总得分基本保持不变。

其次，标签模式必须扩展。二进制的“拒绝/回答”标签无法表达“此案例应得到省略危险细节的部分回答”或“此案例应得到澄清提问，因为意图确实模糊”。评估需要从更丰富的集合中标记行动——至少包括 {回答, 带有警告的回答, 澄清, 仅回答安全部分, 拒绝} ——并带有公差带，描述哪些相邻行动对于边界案例是可以接受的。词典式评分（Lexicographic scoring，即对标记行动给予全分，对相邻行动给予部分分数，对远离的行动给予零分）使得指标在面对困难案例的分歧时保持稳定，同时又不会削弱简单案例的信号。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

你那两个独立的评估指标正不断破坏拒绝校准

双重评估机制正在从相反的两端测量同一个轴

你真正需要的指标是“正确的行动”，而非“拒绝”或“回答”

Recommended Reading

关于 Tian Pan

双重评估机制正在从相反的两端测量同一个轴​

你真正需要的指标是“正确的行动”，而非“拒绝”或“回答”​

Recommended Reading

关于 Tian Pan

双重评估机制正在从相反的两端测量同一个轴

你真正需要的指标是“正确的行动”，而非“拒绝”或“回答”