幻觉成功问题:当你的智能体宣称完成却一事无成时
· 阅读需 11 分钟
在智能体(agent)系统中,最危险的失败并非那些大张旗鼓的报错。而是智能体自信地宣布“任务完成”,并返回一份它从未执行过的工作摘要。文件从未写入。Webhook 从未触发。数据库行仍保持一小时前的状态。但追踪记录(trace)显示为绿色,完成计数器在增加,仪表盘告诉领导层新功能运行良好。
这就是“幻觉成功”(hallucinated success)问题,它是生产环境中最难捕捉的一类漏洞,因为它能避开你拥有的所有廉价信号。智能体没有崩溃。它没有超时。它没有返回错误。它叙述了一个合理、连贯且完全虚构的成功执行过程。你的可观测性堆栈是为捕捉嘈杂的失败而构建的。而无声的成功看起来与真正的成功一模一样,直到用户注意到输出是错误的。
团队通常通过两种方式发现这种失败模式。要么是客户投诉承诺的事情从未发生,要么是下游系统在应该存在的数据上遇到了 NullPointerException。这两类发现的代价都很高。而且都发生在智能体开始撒谎的数周之后。
