长时 Agent 会话中的人格漂移:为什么你的 Agent 会忘记自己是谁
大多数生产环境中的 Agent 故障看起来像是模型错误。Agent 在会话开始时能正确响应系统提示词——维持正确的语气,遵守工具约束,遵循定义的工作流程。然后,在第 30 或 40 轮左右,情况悄然发生变化。Agent 开始在本应直接的地方含糊其辞,调用了它被告知应避免的工具,甚至推翻了它在 15 轮前做出的决定。系统提示词没有改变,但 Agent 的行为已经变了。
这就是人格漂移:由于 Transformer 对越来越深埋的上下文的注意方式,Agent 实际行为与其原始系统指令之间产生的渐进式偏差。研究对此进行了精确量化——经过 8–12 轮对话后,人格自一致性指标下降超过 30%。单轮 Agent 的任务准确率约为 90%;在运行相同任务的多轮 Agent 中则降至约 65%。这 25 个百分点的差距并非一个可以通过调整提示词来解决的模型质量问题,而是注意力机制在长序列上工作方式的架构特性。而大多数团队只有在上线某个功能、该功能悄无声息地降级数小时后才被用户发现时,才意识到这个问题。
