2 篇博文含有标签「ai-quality」

当 LLM 评审 LLM 时，错误被“洗白”而非被捕获

2026年5月17日 · 阅读需 11 分钟

Software Engineer

追踪单个质量信号在现代 AI 流水线中的路径。一个智能体（Agent）起草回复。第二个模型对其进行评审，打出 9 分（满分 10 分）。该评分被记录下来。在季度末，这些记录的评分成为新的评估集（eval set），而下一个模型则针对该评估集进行微调以获得高分。现在问一个显而易见的问题：在这一闭环中，人类在哪一个环节审视过实际输出？

在许多流水线中，诚实的回答是：无处寻觅。执行工作的智能体由另一个智能体评审，而该评审者的结论又会作为下一轮评估的输入。这个回路是封闭的。它持续运行，生成仪表盘，而仪表盘显示一片绿色（一切正常）。然而，它在任何阶段都不包含对现实情况的衡量。

为什么每周会话记录审查优于你的 AI 仪表板

2026年5月2日 · 阅读需 14 分钟

Tian Pan

Software Engineer

在你的 AI 团队中，被低估最严重的资产是每周一小时，由三个人坐在房间里阅读你的产品实际对用户说了什么。不是综合评分。不是移动平均值。不是仪表盘。而是实际的对话记录。逐字逐句的输出。模型悄然形成的懒散措辞。你的分类体系中未涵盖的意图。用户尝试了三次，用三种不同的方式表达需求，而你的评估准则（eval rubric）却将这三次对话都评为“满意”。

将这一小时制度化的团队，能够建立起仪表盘永远无法呈现的 AI 功能心理模型。跳过这一步的团队，会根据看起来不错的指标发布六个月的产品，然后在下一次季度业务回顾（QBR）中发现，在无人察觉时，中位数体验已经漂移到了令人遗憾的境地。

关于 Tian Pan