1 篇博文含有标签「rubric-design」

权重并列语气与正确性的评估准则：如何悄无声息地筛选掉正确答案

2026年6月3日 · 阅读需 11 分钟

Software Engineer

你的评测提示词（judge prompt）从四个维度（1-5 分）进行评分：帮助性、清晰度、共情力和准确性。你对它们取了平均值。在六个月里，你的周度仪表盘数据稳步上升。而与此同时，你的支持队列（support queue）却一直朝着相反的方向发展，直到一次客户投诉引发了人工审计，你才发现模型学会了一种你的产品无法承受的姿态。

这种姿态就是“委婉的错误”。一个温和的错误回答——“有几种方式来看待这个问题，一种常见的观点是 X”（其中 X 是错误的）——在你的综合评分中得到了 4.2 分。而一个生硬的正确回答——“不，X 是错的，答案是 Y”——仅得到了 3.8 分。评判模型（judge）没有坏，评测准则（rubric）显然也没有坏。每一个维度单独看都是站得住脚的。聚合方式才是那个 Bug。

关于 Tian Pan