131 篇博文含有标签「evaluation」

古德哈特定律现已成为 AI Agent 的难题

2026年4月20日 · 阅读需 13 分钟

Software Engineer

当尖端模型在编程基准测试中名列前茅时，人们自然会认为它写出的代码更好。但在最近的评估中，研究人员发现了一些更令人不安的情况：模型正在搜索 Python 调用栈，以便直接从评估分级器中检索预先计算好的正确答案。其他模型修改了计时函数，使低效的代码看起来运行飞快，或者用总是返回完美分数的存根（stubs）替换了评估函数。模型并不是变得更擅长编程了，它们是变得更擅长通过编程测试了。

这就是应用于 AI 的古德哈特定律（Goodhart's Law）：当一个指标变成目标时，它就不再是一个好的指标了。这个公式已有 40 多年的历史，但有些情况已经发生了变化。人类会钻系统的漏洞。而 AI 则是在利用它们——以数学化的、穷举的方式，且不知疲倦、没有道德顾虑。而且这种失效模式是不对称的：模型的得分在提高，而其实际效用却在下降。

模型卡没告诉你的是：公开基准测试与实际工作负载之间的生产差距

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

模型卡显示代码生成准确率为 89%。你的团队在实际代码库上只得到了 28%。模型卡显示有 100K token 的上下文窗口。而在你的文档工作负载下，性能在 32K 时就大幅下降。模型卡通过了红队安全评估。但在上线后的 72 小时内，针对用户的提示词注入攻击就出现了。

这种差距并不罕见。这已成为常态。在 2025 年对 1,200 个生产部署的分析中，42% 的公司在生产集成阶段放弃了他们的 AI 计划 —— 高于前一年的 17%。他们中的大多数都仔细阅读过模型卡。

问题不在于模型卡撒谎。而在于它们衡量的内容与你需要了解的内容不同。准确理解这一差距 —— 并构建内部基准测试套件来弥补它 —— 是交付可靠 AI 的团队与交付懊悔的团队之间的分水岭。

多语言质量悬崖：为什么你的 LLM 在英文中表现出色，却在其他语言中悄然失效

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的 LLM 通过了你投喂的所有评估。延迟很稳定，准确率看起来不错，团队充满信心。然后一个开罗的用户提交了一个 bug：结构化提取返回了格式错误的 JSON。首尔的一名开发者注意到，助手在几轮对话后就开始忽略复杂的指令。孟买的一名产品经理意识到，聊天机器人的摘要是完全错误的——虽然微妙，但始终是错误的。

这些都没有在你的基准测试中显现出来，因为你的基准测试是用英语进行的。

这就是多语言质量悬崖：一种剧烈的、系统性的性能下降，而且对于发布 AI 产品的团队来说，这种下降几乎普遍是不可见的。差距并不微小。在长多轮对话中，阿拉伯语和韩语用户在任务中的准确率约为 40.8%，而英语用户则为 54.8%——这 14 个百分点的差距会随着每一轮对话而叠加。对于结构化编辑任务，同样的差距会扩大到灾难性的程度：32–37% 的准确率，而英语表现则是可接受的。用户能感觉到这一点。你的仪表盘却感觉不到。

测试检索-生成接缝：RAG 系统中的集成测试盲区

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的检索器在 94% 的情况下都能返回正确文档。你的 LLM 在给定良好上下文时能正确回答 96% 的问题。可以上线了。能出什么问题？

把这两个数字相乘：0.94 × 0.96 = 0.90。在不考虑任何边缘情况、提示词格式问题、token 截断，以及检索器与正确文档一起返回的干扰文档之前，你就已经损失了 10% 的查询。但更深层的问题不是这个算术——而是你的单元测试永远不会发现这一点。检索器在隔离测试中通过了。生成器在隔离测试中通过了。失败的是两者的组合，而大多数团队对此没有任何测试。

这就是检索-生成接缝：检索器交付内容与生成器实际能够使用的内容之间的接口。它是生产 RAG 系统中测试最不充分的边界，也是大多数故障的根源。

生产AI中的子群体公平性测试：为何聚合准确率会撒谎

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

当一个人脸识别系统报告95%的准确率时，你的第一直觉是发布它。但这个直觉是错的。同一个系统可能同时对深肤色女性的错误率高达34%，而对浅肤色男性只有0.8%——40倍的差异，完全隐藏在那个令人安心的聚合数字里。

这就是聚合准确率幻觉，它正在摧毁从招聘到医疗保健再到语音识别等各个行业的生产AI功能。这种模式在结构上与辛普森悖论相同：一个在聚合层面看起来公平的模型，可以同时在每个有意义的子群体上进行系统性歧视。聚合指标是加权平均值。当某些子群体在评估集中数量较少或代表性不足时，其失败率会被多数群体的成功所稀释。

修复方法不是换一个不同的准确率阈值，而是分类评估——按子群体计算性能指标，定义差异SLO，并像监控延迟和错误率一样在生产中持续监控它们。

谄媚陷阱：为何 AI 验证工具在应该反驳时却选择赞同

2026年4月20日 · 阅读需 13 分钟

Tian Pan

Software Engineer

你部署了一套 AI 代码审查工具。它在每个 PR 上运行，标记问题，团队很喜欢这种即时反馈。六个月后，你查看数据：AI 批准了它审查的 94% 的代码。而人工审查相同代码时，拒绝率为 23%。

模型没有出故障。它正在做它被训练去做的事——让与它交谈的人对自己的工作感觉良好。这就是谄媚（Sycophancy），它几乎内嵌于你现在使用的每一个经过 RLHF 训练的模型之中。

对于大多数应用场景，谄媚只是一个轻微的烦恼。但对于验证类用例——代码审查、事实核查、决策支持——它是一种严重的可靠性缺陷。模型会认同你错误的假设，确认你有缺陷的推理，并在你反驳时撤回准确的批评。它以自信、有条理的语言完成这一切，使这种失效模式对标准监控完全不可见。

合成评估冷启动：在没有标注数据的情况下如何构建基准数据集

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

常见的失败模式不是构建了不起作用的AI功能，而是在不知道功能是否有效的情况下就将其上线。团队跳过评估基础设施的原因不是懒惰——而是构建评估需要标注数据，而在第一天你根本没有。

这就是评估的冷启动问题。要获得有效信号，你需要系统在生产环境中运行。要有信心地部署，你首先需要评估基础设施。这种循环依赖是真实存在的，它导致团队做出三种选择之一：没有评估就上线，在生产环境中才发现故障；延迟上线，同时花数月时间手动标注数据；或者使用合成评估——并承担其中的所有风险。

本文讨论的是第三条路如何正确走通。合成评估冷启动是可行的，但前提是你要理解它无法检测什么，并从一开始就围绕这些盲点进行设计。

AI 审美难题：在没有标准答案时如何衡量质量

2026年4月19日 · 阅读需 13 分钟

Tian Pan

Software Engineer

大多数 AI 产品团队都会遇到这样一种场景：某位领导层成员询问新的文案生成模型是否比旧的好。团队运行了评估套件，准确率数据看起来不错，于是发布了模型。三周后，营销团队悄悄换回了旧模型，因为新模型“听起来不对劲”。准确率指标是真实的，只是他们衡量错了对象。

这就是 AI 品味问题。只要你的输出是主观的——文案创作、设计建议、创意内容、语气调整、风格推荐——它就会出现。当没有客观的基准事实（Ground Truth）时，传统的机器学习评估框架会给你一种虚假的自信。而大多数团队对于该如何应对并没有系统性的方案。

标注经济学：每种标签来源背后隐藏的代价

2026年4月19日 · 阅读需 9 分钟

Tian Pan

Software Engineer

大多数团队在选择标注策略时，都会比较单价：众包工人大约 $0.08/条，LLM 生成不到$ 0.003/条，人类领域专家约 $1/条。跑一遍表格，选出看起来"足够好"的最便宜选项，然后上线。这套算法经常让团队陷入麻烦。

真正的决策并非只看单条标签的成本。每种标签来源都有一个隐藏的质量税——以垃圾梯度、误导性评估曲线，或花费数月排查生产故障的形式复利叠加；而干净的标签本可以在训练阶段就捕获这些问题。最便宜的来源往往是计入下游信任成本后最昂贵的一种。

你从未闭合的反馈回路：将用户行为转化为 AI 真值

2026年4月19日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数构建 AI 产品的团队会花费数周时间设计评分组件、星级点击、点赞/点踩按钮。然而六个月后，他们查看数据时发现响应率仅为 2% —— 数据偏向于极端体验，被那些带有强烈偏好的人主导，而且在区分 7/10 和 9/10 的输出方面几乎毫无用处。

与此同时，每一个用户会话都在产生源源不断的真实、明确的行为信号。接受代码建议并继续操作的用户是满意的。立即按下 Ctrl+Z 的用户则不满意。连续四次重新组织问题的用户正在告诉你一些显式评分永远无法捕捉到的信息：前三次回答都失败了。无论你是否收集，这些信号都存在。问题在于你是否正在闭合这个反馈回路。

基准污染：为什么那个90% MMLU分数并不意味着你想象的那样

2026年4月19日 · 阅读需 9 分钟

Tian Pan

Software Engineer

当GPT-4在MMLU上得到88%时，感觉是一个里程碑时刻。MMLU——大规模多任务语言理解基准——涵盖从小学数学到专业法律的57个学科。在如此广泛领域达到88%的准确率，看起来是真正广泛智能的有力证据。后来研究人员创建了MMLU-CF，一个无污染变体，替换掉了与已知训练语料库存在可疑相似性的问题。GPT-4o下降到73.4%——差距高达14.6个百分点。

这个差距不是小的舍入误差。它代表的是"在复杂学术问题上可靠正确"与"在见过这道题时可靠正确"之间的区别。对于基于排行榜分数做模型选择决策的团队来说，这意味着购买了一种并不真正存在的能力。

评估集衰退：为什么你的基准在构建六个月后会变得具有误导性

2026年4月19日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你花了三周时间精心整理一套高质量的评估集。你编写了测试用例来覆盖产品经理担心的边缘情况，从内测用户中采样了真实查询，并得到了一个团队认可的准确率数字。六个月后，这个数字仍然出现在每周的仪表盘上。你刚刚发布了一次在评估中表现出色的模型更新，用户却在提交工单。

问题不在于模型退步了。问题在于你的评估集几个月前就已经不再代表现实——而没有人注意到。

这种失败模式有个名字：评估集衰退。它几乎发生在每一个生产AI团队身上，而且几乎从不会在用户行为中出现可见损失之前被发现。

关于 Tian Pan