你的 AI 产品需要评估系统

2025年10月8日 · 阅读需 9 分钟

Software Engineer

每次 AI 产品演示看起来都很棒。模型生成了一些貌似合理的内容，利益相关者频频点头，每个人都带着乐观的情绪离开会议。然后产品发布了，真实用户出现了，事情开始以没人预料到的方式走向下坡路。团队手忙脚乱地修复一个故障模式，却无意中制造了另一个，经过数周的“打地鼠”后，提示词已经变成了一个 2000 个 token 的庞然大物，没人再能完全理解它了。

根本原因几乎总是相同的：没有评估系统。那些发布可靠 AI 产品的团队很早就构建了评估系统，并将其视为基础设施，而不是事后才考虑的事情。那些停滞不前的团队则将评估视为“等产品更成熟了”才需要担心的事情。到那时，他们已经陷入困境。

为什么跳过评估一开始感觉很合理（直到它不再合理）

早期跳过评估有一种诱人的逻辑。模型似乎有效。手动测试只需几分钟。你还有功能要发布。既然可以直接……查看输出，为什么要投入工程时间来构建测试框架呢？

问题在于，“查看输出”无法扩展，也无法复合。当你在发布前手动审查 10 个响应时，你只是从一个你尚未完全理解的分布中进行采样。你正在为那些你能轻易想象到的情况进行优化，而不是你的实际用户会遇到的情况。

如果没有结构化的评估系统，一些事情会必然发生：

更改变得危险。 你更新提示词来修复一个故障，却无法知道你还破坏了什么。每一次改进都是一场赌博。
性能变得隐形。 你无法判断产品是随着时间变得更好还是更糟。直觉取代了数据。
调试变得昂贵。 当生产环境出现问题时，你没有日志、没有追踪，没有结构化的方法来重现问题。

LangChain 的 2026 年智能体工程状况报告发现，57% 的组织在生产环境中使用 AI 智能体，但 32% 的组织将质量视为更广泛部署的最大障碍。质量是一个评估问题。

评估的三个层次

一个实用的评估系统在第一天不需要很复杂。它需要分层——从廉价快速开始，在需要时逐步升级到更昂贵的信号。

第一层：单元测试

AI 系统的单元测试是快速运行、成本低廉并直接集成到 CI/CD 中的断言。它们是第一道防线。

AI 功能的单元测试可能验证：

输出包含所需的字段
没有内部标识符（UUID、系统 ID）暴露给用户
响应长度保持在范围内
没有出现特定的已知不良模式

这些测试通常是确定性的：正则表达式匹配、JSON 模式检查、关键字断言。但你也可以使用大型语言模型（LLM）来生成测试用例并大规模编写断言。如果你正在构建一个房地产助手，你可能会提示一个模型“生成房地产经纪人可能用于搜索联系人的 50 个不同查询”——然后围绕每种查询类别构建断言。

随着时间推移跟踪通过率。将回归视为部署障碍，就像你会对待任何其他系统中损坏的单元测试一样。

第二层：人工和模型评估

单元测试可以发现结构性故障。它们无法发现质量下降——那些技术上有效但微妙地错误、无用或不符合品牌调性的响应。这需要人工判断，而大规模时，则需要模型辅助判断。

前提是日志记录。你需要追踪：每个用户交互的输入、工具调用、中间状态和输出的完整序列。没有追踪，你就会对生产环境中实际发生的事情一无所知。

一旦你有了追踪，工作流程如下：

定期采样。 抽取最近追踪的随机片段并作为团队一起审查。这永不停止——随着产品成熟，采样频率会降低，但绝不会降到零。
标注质量。 让人工根据与你的产品相关的维度（准确性、有用性、语调、任务完成度）对输出进行评分。保持评估标准简单。复杂的标准会导致标注者意见不一。
训练模型评估器。 使用人工标注来校准一个作为判断者的大型语言模型（LLM），该模型会自动评估输出。使用精确率和召回率检查模型判断者与人工标注之间的一致性——在不平衡的数据集中，原始一致率会产生误导。
构建简单的工具。 在你了解自己需要什么之前，不要购买昂贵的观测平台。一个以可读格式显示追踪并带有赞/踩按钮的 Streamlit 应用程序通常就足以开始。目标是“消除查看数据的所有摩擦”。

关键的洞察是，基于模型的评估和人工评估是互补的，而不是替代品。人类设定标准；模型大规模应用标准。

第三层：A/B 测试

A/B 测试属于产品生命周期的后期，当你拥有足够多的真实用户以生成统计信号时。它验证你认为更好的更改是否真正地推动了用户结果——而不仅仅是评估分数。

方法与传统的 A/B 测试相同：在不同变体之间分割流量，定义结果指标（任务完成度、用户留存、明确反馈），并运行直到你拥有足够的数据得出结论。陷阱是过早地运行 A/B 测试，当你的评估系统还不成熟，甚至无法定义“更好”意味着什么时。

评估飞轮

团队能够尽早构建评估体系，并不仅仅是因为他们能捕获更多 bug。更重要的是，评估基础设施会产生复合效应。

微调变得触手可及。 你在评估过程中生成的标注数据就是训练数据。你为单元测试创建的合成示例就是训练样本。拥有成熟评估系统的团队会发现，微调一个较小的模型——这能降低成本和延迟——变得可行，因为他们已经拥有了数据资产。

调试变得系统化。 当生产环境出现故障时，一个拥有日志、跟踪和断言机制的团队可以在数小时内复现、隔离并修复问题。如果没有这些基础设施，同样的调试周期可能需要数天的人工排查。

迭代加速。 当你可以在几分钟内运行你的评估套件时，你可以进行提示词修改，查看对测试用例的影响，并自信地交付。原本需要一周人工审查的反馈循环，被压缩到一次 CI 流水线运行中。

这就是将那些能够自信交付的 AI 团队，与那些总是对下一次部署感到紧张的团队区分开来的复合效应。

实践中的优秀范例

一个案例研究能让这一点具体化。考虑一个嵌入在房地产经纪人 CRM 中的 AI 助手。在开发早期，团队手动迭代提示词——审查输出、进行修改、再次审查。进度感觉很快。然而，当产品触达真实用户时，团队开始遇到意想不到的故障：联系人计数不准确、输出格式错误、忽略复杂查询部分的回应。

团队陷入了经典的陷阱。每一次修复都创建了一个新的边缘情况。提示词变得越来越长。没有人能够再对其进行合理的推断。

当他们构建了一个结构化的评估系统时，情况几乎立刻变得清晰起来。“故障”中的很大一部分原来是轻微的格式问题——一旦显现出来就很容易修复的问题。一小部分是真正的推理失败，需要重新设计提示词。评估数据还揭示了某些故障类别在特定查询类型中始终出现——这些信息推动了有针对性的改进，而这些改进是不会通过临时审查浮现的。

对评估基础设施的投入比任何人预期的回报都更快。

立即开始，无需借口

开始的门槛比大多数团队想象的要低。

从单元测试开始。选择你 AI 功能最重要的三个行为特性，并为它们编写断言。将它们接入你的 CI 流水线。这只需要一天时间。

开始记录跟踪。即使是简单的基于文件或数据库的输入和输出日志，也能为你提供可供操作的依据。没有这些，你就无从评估。

定期与团队一起审查数据。每周安排一小时共同查看真实输出。你会发现意想不到的问题。这正是关键所在。

当人工审查无法扩展时，添加一个模型评估器。使用更强大的模型来评判你的生产模型的输出。根据你的人工标注进行校准。

在 AI 产品上取得成功的团队，并非拥有更好模型的团队。他们是那些构建了系统来理解其模型实际在做什么的团队——并且能够自信地判断模型是否正在变得更好。

令人不适的真相

在 AI 产品开发的任何阶段，评估体系都不会变得不必要。“等产品更成熟了再添加评估体系”的论点恰恰是错误的——评估体系正是让产品成熟的关键。

立即开始。复合效应从你拥有第一个测试用例的那一刻起就开始了。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

你的 AI 产品需要评估系统

为什么跳过评估一开始感觉很合理（直到它不再合理）

评估的三个层次

第一层：单元测试

第二层：人工和模型评估

第三层：A/B 测试

评估飞轮

实践中的优秀范例

立即开始，无需借口

令人不适的真相

Recommended Reading

关于 Tian Pan

为什么跳过评估一开始感觉很合理（直到它不再合理）​

评估的三个层次​

第一层：单元测试​

第二层：人工和模型评估​

第三层：A/B 测试​

评估飞轮​

实践中的优秀范例​

立即开始，无需借口​

令人不适的真相​

Recommended Reading

关于 Tian Pan

为什么跳过评估一开始感觉很合理（直到它不再合理）

评估的三个层次

第一层：单元测试

第二层：人工和模型评估

第三层：A/B 测试

评估飞轮

实践中的优秀范例

立即开始，无需借口

令人不适的真相