跳到主要内容

你的评估准则是真正的产品规格书 —— 且没有产品经理签过字

· 阅读需 13 分钟
Tian Pan
Software Engineer

一位产品经理写下了一段话:“助手应当乐于助人、准确且简洁,绝不能让客户感到匆忙。”一位工程师读了这段话,打开一个 YAML 文件,编写了 47 个加权标准,以便 LLM-as-judge 能够为每一个追踪(trace)生成一个分数。六个月后,那个 YAML 文件成了产品的实际规范。每一次发布都受其把关。每一次回归警报都基于它触发。每一个“达到发布质量”的决策都通过它来路由。而产品经理从未读过它。

这是当今 AI 工程中最为常见的、无意间发生的产品所有权转移。评估准则(rubric)不是对规范的衡量 —— 它就是规范,就像编译器不是对语言的描述,而是它的运行真相。就像编译器一样,评估准则也有决定语义的实现细节。哪种失败模式得 0 分而不是 0.5 分?哪个标准的权重是 0.3 而不是 0.05?哪些行为在评估准则中缺失,从而完全未被计算?每一个都是产品决策。而它们都没有出现在最初的任务书中。

揭露这一问题的诊断性问题虽然令人不安,但询问的成本很低:将当前的评估准则和原始的产品任务书放入同一个文档中并排阅读。尝试这样做的团队几乎总会发现,评估准则已经偏离了任务书 —— 通常是倾向于那些容易评分的指标,而不是用户关心的东西。两个季度的研发进度实际上是在衡量一个略有不同的产品。

这种转化是如何发生的(以及为什么它是隐形的)

评估准则偏离产品任务书并非出于恶意,甚至不是因为粗心。这是一个无人负责的翻译问题的必然结果。产品经理使用方向性的语言写作,因为产品任务书就是由方向性语言组成的:“感觉很有帮助”、“不居高临下”、“尊重用户的时间”。这些都无法“编译”。工程师需要具有确定性的标准,以便 LLM 评审员能在不同运行中保持评分一致,因此他们进行了翻译。

翻译需要做出任务书中未明确的选择。“感觉很有帮助”变成了“回答了字面上的提问,且提供了一个相关的后续跟进,除非用户的意图是快速查询”。这一操作化过程中的每一个词都是一个产品决策。快速查询是否会因为不请自来的后续跟进而被扣分,还是说后续跟进是一个加分项?“回答字面问题”的权重是等于“有用的后续跟进”,还是更高?如果模型完美回答了问题但后续跟进略有偏差 —— 是给 1.0 分、0.7 分还是 0.5 分?

工程师做出了决定,因为如果不这样做,工程师的代码就无法运行。这个决定是合理的。这个决定没有记录在案。这个决定发布了。将此乘以 47 个标准,再乘以六个月内评估准则的每一次迭代,评估准则已经积累了数百个产品决策。它们都没有出现在产品路线图、设计文档或发布任务书中。产品经理每周审查模型输出并点头称赞,是因为输出结果符合评估准则 —— 而不是因为它们符合原始规范。

编码在无人审计的评估准则中的决策

有三类隐形的产品决策往往占据主导地位。它们值得被命名,因为一旦命名,就更容易防范。

分值边界决策。 当评估准则使用 0 / 0.5 / 1 量表(或 1-5,或任何序数)时,分值之间的界限就是产品决策。“助手正确识别了问题,但解决了一个密切相关但略有偏差的问题”是给 0.5 分还是 0 分?这个答案决定了你的评估是更倾向于“显著失败”(fail-loud,明显的错误)的模型,还是“软失败”(fail-soft,看似合理的错误)的模型。大多数用户更喜欢显著失败 —— 软失败会更快地摧毁信任 —— 但大多数由工程师编写、旨在优化评分者间一致性的评估准则,会将软失败计为部分分,因为它们更容易评分。

权重决策。 几乎每个分析式评估准则都会分配权重,而大多数权重在选定后就再未被修改过。一个权重为 0.05 的标准几乎是不可见的 —— 模型可以在每个追踪中都违反它,而总分几乎不动。如果“不让客户感到匆忙”被转化为了一个权重为 0.05 的单一标准,而“任务完成度”有六个总权重为 0.6 的标准,那么评估准则就单方面决定了客户体验的重要性大约只有任务完成度的十二分之一。产品经理几乎肯定不这么认为。

缺失标准决策。 评估准则中不存在的标准是最危险的,因为它们在评估内部是不可观察的。如果你的评估准则对正确性、完整性、语气和安全性进行评分 —— 但从未评分助手是否能优雅地处理与之前回答相矛盾的后续问题 —— 那么“矛盾情况下的优雅自我修正”就是未被评估的,这意味着它未经过测试,也就是说它取决于模型的默认表现。你的产品在这一类别中是有特定行为的。你只是不知道它是什么。

为什么评分标准会向易于评分的内容偏移

每个评分标准都存在一种强烈的、结构性的倾向,即向那些能产生稳定、可辩护分数的准则偏移。维护评分标准的工程师希望实现评分者间的一致性(LLM 裁判之间,以及 LLM 裁判与人类之间),因为一致性低会导致评估充满噪声,而充满噪声的评估无法起到任何把关作用。因此,评分标准的自然演变过程是:产生噪声分数的准则会被重新表述为更具体的内容;无法重新表述的准则会被剔除;而能产生清晰分数的准则会被保留并经常被复制。

这种演进的终点是一个评分表现完美的评分标准——高一致性、低方差、清晰的仪表盘——但衡量的内容却与用户真正想要的东西略有偏差。最近关于基于评分标准的评估研究正记录了这种偏移,例如 RULERS 框架明确指出“与人类评分边界的尺度失配”是除评分标准不稳定性(rubric instability)和不可验证推理(unverifiable reasoning)之外的三种常见失败模式之一。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates