你那两个独立的评估指标正不断破坏拒绝校准
调出过去四次模型升级的仪表盘,查看安全指数(safety number)旁边对应的帮助指数(helpfulness number)。在每次发布中,总有一个指数在变动,而且几乎从不是同一个。负责安全评估的团队发布了一个“将拒绝加固提升了 6 个点”的修复程序,三周后,负责帮助性评估的团队发布了一个“在合法查询完成度上恢复了 5 个点”的修复程序。然后,循环再次开始。
这并不是两个团队在各自取得独立进展。而是一个模型在沿着同一个轴摆动,而组织却在用两把相反的尺子测量它,每把尺子上所谓的胜利都是另一把尺子上无声的损失。刚刚庆祝了安全性能提升的团队,在不经意间发布了一个拒绝更多合法医疗问题、法律问题和“如何做”问题的模型——而这些问题的词干恰好看起来像训练数据中的不安全内容。由于这种帮助性的倒退属于不同的冲刺周期、不同的负责人和不同的仪表盘,因此它被忽视了。
这种“双重评估”的设计初衷似乎很严谨。它可审计,产生看似正交的数字,并允许两个团队并行工作。但它在结构上保证了优化过程会在每个 循环中用一个数字交换另一个数字,因为这些指标实际上并非正交——它们是模型在处理每一个请求时所做的同一个决策的两种投射,而评估设计掩盖了这一决策本是同一个决策的事实。
双重评估机制正在从相反的两端测量同一个轴
在通常的形式中,安全评估是一组有害或双重用途的提示词,其中标记的“正确”行为是拒绝。拒绝得分高;顺从得分低。当模型拒绝更多此类提示词时,该指标就会上升。
而在通常的形式中,帮助性评估是一组合法的提示词,其中标记的“正确”行为是回答。顺从得分高;拒绝得分低。当模型回答更多此类提示词时,该指标就会上升。
如果你将模型的行为描绘成一个关于“我现在应该多谨慎”的单一决策阈值,那么这两个指标就是从相反的两侧测量该阈值。将阈值向谨慎方向移动,安全评估会提升,而帮助性评估会下降。将其向顺从方向移动,帮助性评估会提升,而安全评估会下降。仪表盘测量的不是独立的能力;它们是通过两个互补的透镜观察到的同一个刻度盘。
这就是帕累托前沿(Pareto frontier)的结构形态。最近的研究正式阐明了这种几何关系——当研究人员仅针对安全性、仅针对帮助性或按顺序针对两者进行偏好优化时,生成的模型会落在一条大致线性的前沿上,而不是发现一个能同时兼顾两个轴的最优解。即使在同一次训练中同时针对这两个目标,往往也只是 产生前沿上的另一个点,而非实质性的提升。前沿存在于模型的实际行为中。而双重评估机制隐藏了它。
隐藏前沿会产生组织层面的后果。当负责安全仪表盘的团队发布一个加固变更时,他们在自己的图表上看到了一个漂亮的向右上方移动的趋势。但在同一张图表上,他们看不到自己刚刚给合法查询群体强加的代价。帮助性团队会在两周后在他们的仪表盘上看到这一代价(表现为性能倒退),并将其视为一个需要解决的新问题,而不是前一次“胜利”的必然结果。两个团队轮流前后拨动刻度盘,每一步在局部都是理性的,但每一步都在抵消前一步。模型在前沿上的表现从未提升;它只是在前沿上滑动。
你真正需要的指标是“正确的行动”,而非“拒绝”或“回答”
解决方案不是增加第三个评估来合并另外两个。解决方案是认识到,“拒绝”和“回答”是模型在处理每个请求时所做的选择中的两种,而你一直需要的指标是模型是否在该特定请求中做出了 正确 的选择——而不是它是否在整个测试集中选择了某一种特定行为。
具体来说,每个评估案例都应该携带一个标记为“正确行动”的目标,而不是标记为“正确输出”。对于明显有害的查询,正确行动是 拒绝。对于明显良性的查询,正确行动是 回答。对于真正模糊的中间地带——即查询可能是一个合法的专业问题,也可能是某些不安全意图的伪装——正确行动很少是生硬的“是”或“否”;它通常应该是 澄清、带有安全警告的回答、回答安全的部分并标记不安全的部分,或者在某些情况下 部分回答并拒绝危险细节。一个校准良好的模型会根据每个请求从中选择行动;一个设计良好的评估会奖励选择正确的行动,并惩罚任何其他选择——包括以同样的严厉程度惩罚对良性查询的 过度谨慎 选择和对有害查询的 盲目顺从 选择。
这种重构有几个值得明确的机制性后果。
首先,分析单位从“模型是否产生了拒绝”转变为“模型是否产生了该案例标记的行动”。在有害案例中拒绝与在良性案例中回答的得分相同:两者都是正确的行动。在良性案例中的过度拒绝与在有害案例中的拒绝不足得分相同:两者都是错误的行动。评估不再能通过统一增加或减少谨慎度来作弊,因为任何一种变动都会导致一种正确行动与一种错误行动的互换,从而使总得分基本保持不变。
其次,标签模式必须扩展。二进制的“拒绝/回答”标签无法表达“此案例应得到省略危险细节的部分回答”或“此案例应得到澄清提问,因为意图确实模糊”。评估需要从更丰富的集合中标记行动——至少包括 {回答, 带有警告的回答, 澄清, 仅回答安全部分, 拒绝} ——并带有公差带,描述哪些相邻行动对于边界案例是可以接受的。词典式评分(Lexicographic scoring,即对标记行动给予全分,对相邻行动给予部分分数,对远离的行动给予零分)使得指标在面对困难案例的分歧时保持稳定,同时又不会削弱简单案例的信号。
- https://arxiv.org/abs/2405.20947
- https://arxiv.org/html/2405.20947v5
- https://arxiv.org/pdf/2308.01263
- https://aclanthology.org/2024.naacl-long.301.pdf
- https://arxiv.org/html/2510.08158v1
- https://arxiv.org/pdf/2508.11222
- https://arxiv.org/pdf/2508.11290
- https://arxiv.org/pdf/2603.02229
- https://false-reject.github.io/
- https://arxiv.org/pdf/2505.18325
- https://arxiv.org/html/2604.00228
- https://arxiv.org/pdf/2404.01295
