为什么每周会话记录审查优于你的 AI 仪表板
在你的 AI 团队中,被低估最严重的资产是每周一小时,由三个人坐在房间里阅读你的产品实际对用户说了什么。不是综合评分。不是移动平均值。不是仪表盘。而是实际的对话记录。逐字逐句的输出。模型悄然形成的懒散措辞。你的分类体系中未涵盖的意图。用户尝试了三次,用三种不同的方式表达需求,而你的评估准则(eval rubric)却将这三次对话都评为“满意”。
将这一小时制度化的团队,能够建立起仪表盘永远无法呈现的 AI 功能心理模型。跳过这一步的团队,会根据看起来不错的指标发布六个月的产品,然后在下一次季度业务回顾(QBR)中发现,在无人察觉时,中位数体验已经漂移到了令人遗憾的境地。
这个建议听起来并不高大上:将你的一个例会替换为由提示词负责人(prompt owner)、评估负责人(eval owner)和产品经理(PM)共同阅读 20 条生产环境对话记录的会议。分层抽样,而非随机。一小时,而非三小时。产出表现为工单(tickets),而非感觉。这种杠杆作用会不断叠加,因为每一次阅读环节都会更新团队对于“什么是好的”这一共识模型。而这个模型,正是所有下游决策——评估准则、提示词修改、功能范围界定——的真实基石。
扼杀质量信号的聚合陷阱
仪表盘是聚合机器。它们将一百万次对话压缩成一个数字。压缩本身就是其存在的意义——但这也是为什么仪表盘会系统性地遗漏那些至关重要的失败案例。
想象一个平均评分为 4.2/5 的客服代理。无论该代理评分最低的 5% 对话是平庸还是具有误导性,这个数字都是一样的。无论中位数体验是从“简洁准确”漂移到了“啰嗦且含糊”,结果都是一样的。无论是有 8% 的用户尝试询问代理未受训的内容,却得到了一个听起来很有礼貌但文不对题的回避(且在日志中被标记为成功响应),结果也都是一样的。
聚合隐藏了分布。平均值隐藏了众数。点赞率隐藏了那些用户因为放弃而未评分就离开的对话。这些正是错误分析能够发现的失败类型——如果不深入阅读对话记录,它们在外部是不可见的。
业界从业者对此有一个共识:“看你的数据”。这听起来有些说教,因为方子太简单了,但团队却经常跳过这一步,因为聚合指标看起来比阅读更严谨。事实恰恰相反。阅读对话记录才是严谨的做法。仪表盘只是你在理解数据内容之后编写的执行摘要。
会议具体该如何进行
一个高效的对话记录审查会议包含四个核心结构决策:参与者是谁、如何抽样、阅读如何组织,以及会议产出什么成果。做对这些,节奏就能维持下去。做错这些,会议要么变成进度汇报,要么悄然终止。
参与者。 至少三个角色:提示词负责人(负责修改系统提示词和工具目录的工程师)、评估负责人(负责维护评估套件的工程师)以及 PM。每个角色都有不同的视角。提示词负责人能发现提示词漂移和懒散措辞。评估负责人能发现准则的缺失。PM 能发现产品路线图应响应的用户意图。在领域知识主导失败模式的垂直领域,可以邀请一位领域专家(如临床医生、律师、客服主管)作为第四席位轮值参加。
抽样。 非随机抽样。采用分层抽样,将 20 条记录分配到不同组别:
- 评分最低组 (5 条):用户明确标记或评价较低的对话。这些是显而易见的改进点,通常已经在仪表盘上显现。
- 安全标记组 (3 条):触发了安全分类器的任何内容,即使是误报。误报也很重要,因为它们能告诉你安全层认为什么是不安全的。
- 看似正常实则异样组 (5 条):指标评分不错,但人工浏览发现存在漂移、含糊或语气不对的对话。筛选这一组需要有人每周浏览超过 20 条记录并预先标记候选。这是会议隐藏的人力成本,需要为此预留预算。
- 高频意图组 (4 条):来自流量最大的意图分类的样本。这是最常见的路径,也是你的功能消耗大部分推理预算的地方。仪表盘会将这部分均值化,使其变得隐形。
- 随机基准组 (3 条):纯随机抽样。用于校准预期,并发现分层抽样设计时可能遗 漏的长尾问题。
阅读。 在共享屏幕上一起大声朗读。不是“每个人独立阅读然后带上笔记”。一起阅读才能建立共享的心理模型。这也能引出关于“什么是好的”的分歧,而这正是会议产生的最有价值的产出。当提示词负责人说“这个回复没问题”,而 PM 说“这不是用户想要的”时,这个差距就是你一直缺失的评估准则。
产出物。 每一个发现都要以四种形式之一离开会议:评估案例(套件中的新测试用例)、提示词修改工单(系统提示词的待处理编辑)、分类体系更新(新的失败模式标签或新的用户意图桶),或是有明确负责人和截止日期的行动项。没有产出物的发现不叫发现。没有负责人的产出物不叫产出物。
只有通过阅读才能发现的洞察
聚合指标告诉你上周哪些地方变差了。对话记录则告诉你哪些地方变得古怪——而“古怪”正是未来回归测试失败的潜伏地。
未分类的意图。 用户提出了真正新颖的问题。你的意图分类器将其硬塞进最接近的现有分类中。智能体给出了一个听起来合理但实际上并未回答问题的回复。用户对对话评价为中性或不予评价。这种意图类别现在每周增长 12%,你的仪表盘显示零退化,而你的路线图中没有解决它的功能,因为产品经理(PM)根本不知道它的存在。阅读对话记录是 PM 发现其存在的唯一途径。
偷懒的措辞。 智能体陷入了一种口头禅——在每个回答前都说“好问题!”,或者用“这取决于你的具体情况”来回避每个直接回答,或者在用户想要行动时系统性地使用被动语态。这些都不会触发评估(eval)失败。但随着时间的推移,它们都会降低产品的感知质量。连续阅读五份对话记录并听到相同的短语,是注意到这种模式的唯一方法。
- https://hamel.dev/blog/posts/field-guide/
- https://hamel.dev/blog/posts/revenge/
- https://www.heavybit.com/library/podcasts/o11ycast/ep-79-ai-and-otel-look-at-your-data-with-hamel-husain
- https://www.chatprd.ai/how-i-ai/debugging-ai-writing-evals
- https://langfuse.com/blog/2025-08-29-error-analysis-to-evaluate-llm-applications
- https://www.emergentmind.com/topics/erroratlas
- https://gist.github.com/Dowwie/1dada92c45f80c472c667bb6c99e0e59
- https://newsletter.pragmaticengineer.com/p/evals
- https://hamming.ai/resources/pii-redaction-voice-agents-compliance-architecture-guide
- https://www.gravitee.io/blog/how-to-prevent-pii-leaks-in-ai-systems-automated-data-redaction-for-llm-prompt
- https://alexstrick.com/posts/2025-05-23-error-analysis-to-find-failure-modes.html
- https://latitude.so/blog/how-to-generate-ai-evaluations-from-production-data
