选择评估指标是产品决策,而非技术决策
一个构建基于LLM的文献筛选工具的团队在测试集上庆祝96%的准确率。按照任何标准工程指标,他们的模型表现都非常出色。但有一个问题:它找到了零个真正的阳性结果。该模型学会了将所有内容归类为无关内容,但仍然获得了近乎完美的准确率,因为相关论文在数据集中极为罕见。失败不在于模型——而在于指标。
这种失败模式并不罕见。它每周都在AI团队中悄然上演,工程师在没有产品输入的情况下选择评估指标——就像选择排序算法一样,视其为有正确答案的技术选择。这种框架是错误的。指标选择是一个产品决策。它编码了你愿意容忍哪些失败模式、你在为哪些用户优化,以及在你的特定场景中"好"究竟意味着什么。搞错这一点会产生看起来严谨却衡量了错误事物的评估套件。
指标编码了对失败的容忍度,而不仅仅是性能
每个评估指标都是对什么重要的一次押注。BLEU奖励与参考翻译的n-gram重叠。LLM-as-judge奖励语言模型评分高的输出。人类偏好奖励标注者偏好的输出。任务完成率奖励无需干预即可完成任务的智能体。这些押注中的每一个都反映了对哪些失败是可接受的选择。
考虑这些权衡:
- BLEU和ROUGE惩罚合法的意译,并在含义偏离时奖励词汇相似性。如果你的产品呈现出流畅但幻觉性的文本,BLEU不会捕捉到它。该指标是为机器翻译设计的——它衡量表面形式,而非正确性或用户价值。
- LLM-as-judge在某些任务上与人类判断的皮尔逊相关系数高达0.85。但它系统性地偏向于冗长、形式结构化的输出,无论它们是否正确。它还存在位置偏差——根据所使用的法官模型,在比较中较早或较晚呈现的回答会获得系统性不同的分数。
- 人类偏好评分捕捉了用户实际想要的内容,但引入了其自身的扭曲。标注者优化的是读起来好的内容,而非准确的内容。一项将自动化指标与人类评估者进行比较的研究发现,机器对逻辑结构化的输出评分很高,而人类将同样的输出描述为"冷漠、机械、缺乏真实性"。
- 任务完成率衡量智能体是否能自主完成任务。研究显示,68%的生产智能体在需要人工干预之前只执行10步或更少的步骤。但在测试套件中聚合的"任务完成"隐藏了智能体失败的地方——在特定输入类型上的系统性失败消失在平均值中。
这些都没有客观上更好的。每种方法都适合特定的失败模式,而对其他失败模式则会产生误导。选择衡量哪些 失败模式——以及忽略哪些——不是技术判断,而是产品判断。
为什么工程驱动的选择会系统性地出错
当工程师在没有产品输入的情况下拥有指标选择权时,选择标准默认为可测量、可自动化和可优化的内容。这些标准与用户价值正交。
典型的失败模式是古德哈特定律:当一个指标成为目标时,它就不再是一个好的指标。这在AI中不是理论。考虑:
- 一旦排行榜排名成为行业声誉信号,模型实验室就开始将其视为目标。几个月内,各实验室开始选择性地展示其最强的模型变体,挑选基准子集,并报告反映博弈而非能力的分数。一个前沿模型在主要基准上报告了50%;独立测试发现29.4%。
- Google的YouTube推荐系统将"观看时长"优化为用户满意度的代理。该指标易于衡量,与参与度相关,完全可追踪。它还推动推荐走向阴谋论内容,因为更长的视频让用户继续观看,无论质量如何。
- 文献筛选团队在错过每一篇相关论文的情况下达到了96%的准确率。准确率是其工程师知道如何优化的指标。对于用例至关重要的召回率——没有出现在仪表板上。
在每种情况下,工程师选择了技术上可处理的指标。在每种情况下,指标与产品实际需要的内容发生了偏离。问题不在于工程师工作不好,而在于指标选择需要知道哪些失败模式是灾难性的、哪些用户受影响最大,以及特定场景下"足够好"意味着什么。这些知识存在于产品中,而非工程中。
失败模式地图
不同的失败模式需要不同的指标。在选择任何指标之前,团队应该明确他们正在衡量哪些失败模式——以及他们故意接受哪些失败模式。
幻觉和事实错误不会被流利度或连贯性指标捕捉。一个完美流畅的幻觉答案在ROUGE上与正确答案得分相同。TruthfulQA、专用幻觉基准和基于RAG的事实性检查为此而存在。如果你的产品处于错误代价高昂的领域——法律、医疗、金融——忽略幻觉指标是有意识地接受这些未受检查的失败。
人口统计性能差异在总体准确率中是不可见的。总体准确率92%的模型对一个人口统计群体可能有78%的准确率,对另一个群体有96%。如果你的产品服务于多样化的用户,总体准确率不是安全指标——它是一个隐藏歧视的平均函数。
智能体失败模式不能干净地聚合。对多步骤智能体失败的研究识别出四种反复出现的模式:无根基的过早行动、替代缺失实体的过度帮助、易受干扰器引起的上下文污染影响,以及在负载下脆弱的执行。单一的任务完成率分数将所有这些折叠成一个数字。关心智能体为何失败的团队需要按失败类型的仪表化。
领域专家一致性暴露了自动化评估的局限性。LLM-as-judge与营养学和心理健康等专业领域的主题专家的一致性范围为60-68%。如果你的产品是知识密集型的,自动化指标会高估质量。自动化分数与专家判断之间可接受的差距是一个产品决策:多少不一致可以发布而不产生责任、侵 蚀信任或伤害用户?
这些答案都没有写在评估框架文档中。它们需要利益相关者的输入。
在编写评估示例之前共同设计指标
工程驱动选择的实际替代方案是在编写评估示例之前运行的结构化共同设计过程。顺序很重要:指标选择必须先于示例收集,因为示例总是隐式地针对你正在衡量的内容进行优化。
- https://www.evidentlyai.com/llm-guide/llm-as-a-judge
- https://arxiv.org/html/2412.05579v2
- https://arxiv.org/abs/2002.08512
- https://arxiv.org/html/2504.12328v1
- https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
- https://arxiv.org/html/2511.12635
- https://productschool.com/blog/artificial-intelligence/ai-evals-product-managers/
- https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/
- https://blog.collinear.ai/p/gaming-the-system-goodharts-law-exemplified-in-ai-leaderboard-controversy
- https://www.statsig.com/perspectives/product-metrics-feature-flags-ai
