为所有人辩护 AI 评估
每隔几个月,AI 工程社区就会兴起一股新的“不必费心评估”的浪潮。论点通常是:评估成本太高、过于脆弱、难以定义,对于快速迭代的产品团队来说,最终不值得投入这些额外的负担。不如发布、迭代,并相信你的直觉。
这是一个糟糕的建议,会导致劣质软件。2026 年 LangChain 的一项调查发现,只有 52% 的组织进行离线评估,而只有 37% 的组织针对实时流量运行在线评估——然而,32% 的组织将质量列为他们生产部署的第一大障碍。这并非巧合。
那些声称跳过评估的团队实际上仍在进行评估——他们只是非正式地、不一致地进行,并且无法检测到退化。内部测试、错误分类、输出审查会议:这些都是评估活动。问题不在于你是否评估,而在于你是否足够深思熟虑地进行,以便从中学习。
反对评估的论点实则是反对糟糕的评估
最常见的批评并非真正针对评估本身。它是关于团队如何实施评估:选择听起来严谨却一无所获的指标,构建评估套件通过但生产环境却问题百出,并将工程周期投入到从未能揭示可操作信号的基础设施上。
这些都是真实存在的问题。通用指标——“帮助性分数”、“相关性”、“连贯性”——产生的数字几乎没有任何用处。团队优化分数,发布,结果用户仍然抱怨全新的故障模式。评估通过了,因为它们测试的是系统说了什么,而不是它实际做了什么。
答案是更好的评估,而不是没有评估。因为一些实现很糟糕就放弃系统性的质量测量,这就像因为你见过不稳定的单元测试而放弃它们一样。
你已经在进行评估
对你团队的质量保证流程进行任何诚实的盘点。你可能:
- 在发布提示词更改前审查模型输出
- 发布后监控错误率和投诉工单
- 定期阅读对话或完成文本样本
- 有内部高级用户对边缘案例进行压力测试
所有这些都是评估。这与“运行评估”的区别在于结构:你是否提前定义故障模式,你是否持续抽样,你是否跟踪故障率随时间的变化。
拥有深厚领域专业知识和严格内部测试的团队可以采用更轻量级的正式评估基础设施——但前提是他们对抽样和分析真正做到严谨。这是例外,而非规则。对于大多数产品团队来说,隐性评估过程存在足够大的盲区,以至于严重的退化未被发现。
