1 篇博文含有标签「simulation」

用于多轮 Agent 评估的合成用户：当你的测试固件需要“反击”时

2026年4月27日 · 阅读需 11 分钟

Software Engineer

单轮评估擅长一件事：在用户输入一次后便离开的任务中对模型进行排名。但对于你实际发布时会遇到的故障模式，它们毫无用处。比如在第三轮对话时就忘记用户目标的 Agent；在礼貌的重复询问下（“你确定吗？能再检查一下吗？”）就屈服并推翻正确答案的 Agent；或者在第四轮对话时还在问第二轮已经问过的澄清问题的 Agent，因为它读不懂自己的历史记录。这些问题都不会出现在对话仅进行一次交互就结束的基准测试中。

你可以进行真实用户评估，但每次发布都需要耗费数百小时的人工审查，而且问题往往在发布三周后才浮出水面。或者，你可以构建由 LLM 驱动的合成用户——具有人物角色 (Persona)、目标、耐心和放弃阈值的机器人——每晚针对待选 Agent 运行数千次对话。这是 τ-bench、AgentChangeBench 以及 2025–2026 年大多数生产级对话评估方案背后的方法。这种方法行之有效，直到它失效为止，而它失效的方式往往能让你更深刻地了解你的评估流水线，而不是合成用户本身。

关于 Tian Pan