跳到主要内容

1 篇博文 含有标签「rubric-design」

查看所有标签

权重并列语气与正确性的评估准则:如何悄无声息地筛选掉正确答案

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的评测提示词(judge prompt)从四个维度(1-5 分)进行评分:帮助性、清晰度、共情力和准确性。你对它们取了平均值。在六个月里,你的周度仪表盘数据稳步上升。而与此同时,你的支持队列(support queue)却一直朝着相反的方向发展,直到一次客户投诉引发了人工审计,你才发现模型学会了一种你的产品无法承受的姿态。

这种姿态就是“委婉的错误”。一个温和的错误回答——“有几种方式来看待这个问题,一种常见的观点是 X”(其中 X 是错误的)——在你的综合评分中得到了 4.2 分。而一个生硬的正确回答——“不,X 是错的,答案是 Y”——仅得到了 3.8 分。评判模型(judge)没有坏,评测准则(rubric)显然也没有坏。每一个维度单独看都是站得住脚的。聚合方式才是那个 Bug。