跳到主要内容

你的 AI 产品需要评估系统

· 阅读需 9 分钟
Tian Pan
Software Engineer

每次 AI 产品演示看起来都很棒。模型生成了一些貌似合理的内容,利益相关者频频点头,每个人都带着乐观的情绪离开会议。然后产品发布了,真实用户出现了,事情开始以没人预料到的方式走向下坡路。团队手忙脚乱地修复一个故障模式,却无意中制造了另一个,经过数周的“打地鼠”后,提示词已经变成了一个 2000 个 token 的庞然大物,没人再能完全理解它了。

根本原因几乎总是相同的:没有评估系统。那些发布可靠 AI 产品的团队很早就构建了评估系统,并将其视为基础设施,而不是事后才考虑的事情。那些停滞不前的团队则将评估视为“等产品更成熟了”才需要担心的事情。到那时,他们已经陷入困境。

为什么跳过评估一开始感觉很合理(直到它不再合理)

早期跳过评估有一种诱人的逻辑。模型似乎有效。手动测试只需几分钟。你还有功能要发布。既然可以直接……查看输出,为什么要投入工程时间来构建测试框架呢?

问题在于,“查看输出”无法扩展,也无法复合。当你在发布前手动审查 10 个响应时,你只是从一个你尚未完全理解的分布中进行采样。你正在为那些你能轻易想象到的情况进行优化,而不是你的实际用户会遇到的情况。

如果没有结构化的评估系统,一些事情会必然发生:

  • 更改变得危险。 你更新提示词来修复一个故障,却无法知道你还破坏了什么。每一次改进都是一场赌博。
  • 性能变得隐形。 你无法判断产品是随着时间变得更好还是更糟。直觉取代了数据。
  • 调试变得昂贵。 当生产环境出现问题时,你没有日志、没有追踪,没有结构化的方法来重现问题。

LangChain 的 2026 年智能体工程状况报告发现,57% 的组织在生产环境中使用 AI 智能体,但 32% 的组织将质量视为更广泛部署的最大障碍。质量是一个评估问题。

评估的三个层次

一个实用的评估系统在第一天不需要很复杂。它需要分层——从廉价快速开始,在需要时逐步升级到更昂贵的信号。

第一层:单元测试

AI 系统的单元测试是快速运行、成本低廉并直接集成到 CI/CD 中的断言。它们是第一道防线。

AI 功能的单元测试可能验证:

  • 输出包含所需的字段
  • 没有内部标识符(UUID、系统 ID)暴露给用户
  • 响应长度保持在范围内
  • 没有出现特定的已知不良模式

这些测试通常是确定性的:正则表达式匹配、JSON 模式检查、关键字断言。但你也可以使用大型语言模型(LLM)来生成测试用例并大规模编写断言。如果你正在构建一个房地产助手,你可能会提示一个模型“生成房地产经纪人可能用于搜索联系人的 50 个不同查询”——然后围绕每种查询类别构建断言。

随着时间推移跟踪通过率。将回归视为部署障碍,就像你会对待任何其他系统中损坏的单元测试一样。

第二层:人工和模型评估

单元测试可以发现结构性故障。它们无法发现质量下降——那些技术上有效但微妙地错误、无用或不符合品牌调性的响应。这需要人工判断,而大规模时,则需要模型辅助判断。

前提是日志记录。你需要追踪:每个用户交互的输入、工具调用、中间状态和输出的完整序列。没有追踪,你就会对生产环境中实际发生的事情一无所知。

一旦你有了追踪,工作流程如下:

  1. 定期采样。 抽取最近追踪的随机片段并作为团队一起审查。这永不停止——随着产品成熟,采样频率会降低,但绝不会降到零。
  2. 标注质量。 让人工根据与你的产品相关的维度(准确性、有用性、语调、任务完成度)对输出进行评分。保持评估标准简单。复杂的标准会导致标注者意见不一。
  3. 训练模型评估器。 使用人工标注来校准一个作为判断者的大型语言模型(LLM),该模型会自动评估输出。使用精确率和召回率检查模型判断者与人工标注之间的一致性——在不平衡的数据集中,原始一致率会产生误导。
  4. 构建简单的工具。 在你了解自己需要什么之前,不要购买昂贵的观测平台。一个以可读格式显示追踪并带有赞/踩按钮的 Streamlit 应用程序通常就足以开始。目标是“消除查看数据的所有摩擦”。

关键的洞察是,基于模型的评估和人工评估是互补的,而不是替代品。人类设定标准;模型大规模应用标准。

第三层:A/B 测试

A/B 测试属于产品生命周期的后期,当你拥有足够多的真实用户以生成统计信号时。它验证你认为更好的更改是否真正地推动了用户结果——而不仅仅是评估分数。

方法与传统的 A/B 测试相同:在不同变体之间分割流量,定义结果指标(任务完成度、用户留存、明确反馈),并运行直到你拥有足够的数据得出结论。陷阱是过早地运行 A/B 测试,当你的评估系统还不成熟,甚至无法定义“更好”意味着什么时。

评估飞轮

团队能够尽早构建评估体系,并不仅仅是因为他们能捕获更多 bug。更重要的是,评估基础设施会产生复合效应。

微调变得触手可及。 你在评估过程中生成的标注数据就是训练数据。你为单元测试创建的合成示例就是训练样本。拥有成熟评估系统的团队会发现,微调一个较小的模型——这能降低成本和延迟——变得可行,因为他们已经拥有了数据资产。

调试变得系统化。 当生产环境出现故障时,一个拥有日志、跟踪和断言机制的团队可以在数小时内复现、隔离并修复问题。如果没有这些基础设施,同样的调试周期可能需要数天的人工排查。

迭代加速。 当你可以在几分钟内运行你的评估套件时,你可以进行提示词修改,查看对测试用例的影响,并自信地交付。原本需要一周人工审查的反馈循环,被压缩到一次 CI 流水线运行中。

这就是将那些能够自信交付的 AI 团队,与那些总是对下一次部署感到紧张的团队区分开来的复合效应。

实践中的优秀范例

一个案例研究能让这一点具体化。考虑一个嵌入在房地产经纪人 CRM 中的 AI 助手。在开发早期,团队手动迭代提示词——审查输出、进行修改、再次审查。进度感觉很快。然而,当产品触达真实用户时,团队开始遇到意想不到的故障:联系人计数不准确、输出格式错误、忽略复杂查询部分的回应。

团队陷入了经典的陷阱。每一次修复都创建了一个新的边缘情况。提示词变得越来越长。没有人能够再对其进行合理的推断。

当他们构建了一个结构化的评估系统时,情况几乎立刻变得清晰起来。“故障”中的很大一部分原来是轻微的格式问题——一旦显现出来就很容易修复的问题。一小部分是真正的推理失败,需要重新设计提示词。评估数据还揭示了某些故障类别在特定查询类型中始终出现——这些信息推动了有针对性的改进,而这些改进是不会通过临时审查浮现的。

对评估基础设施的投入比任何人预期的回报都更快。

立即开始,无需借口

开始的门槛比大多数团队想象的要低。

从单元测试开始。选择你 AI 功能最重要的三个行为特性,并为它们编写断言。将它们接入你的 CI 流水线。这只需要一天时间。

开始记录跟踪。即使是简单的基于文件或数据库的输入和输出日志,也能为你提供可供操作的依据。没有这些,你就无从评估。

定期与团队一起审查数据。每周安排一小时共同查看真实输出。你会发现意想不到的问题。这正是关键所在。

当人工审查无法扩展时,添加一个模型评估器。使用更强大的模型来评判你的生产模型的输出。根据你的人工标注进行校准。

在 AI 产品上取得成功的团队,并非拥有更好模型的团队。他们是那些构建了系统来理解其模型实际在做什么的团队——并且能够自信地判断模型是否正在变得更好。

令人不适的真相

在 AI 产品开发的任何阶段,评估体系都不会变得不必要。“等产品更成熟了再添加评估体系”的论点恰恰是错误的——评估体系正是让产品成熟的关键。

立即开始。复合效应从你拥有第一个测试用例的那一刻起就开始了。

Let's stay in touch and Follow me for more thoughts and updates