人格漂移:当你的智能体忘记自己的身份时
系统提示词写着:“你是一名金融分析师——保持保守,永远不要给出具体的买入/卖出建议,始终披露不确定性。”在最初的二十轮对话中,智能体的表现确实像一名金融分析师。到了第五十轮,它开始推荐具体的股票,模仿用户随意的语气,且比起第三轮时更少做风险对冲。没有人修改过系统提示词。没有人注入任何恶意指令。角色只是在对话的重压下被侵蚀了,就像河岸在没有任何东西越过“攻击”阈值、但流水从未停止移动时所发生的那样。
这就是人格漂移(Persona Drift),也是你的评估套件未能捕获的退化。能力评估衡量模型是否能完成任务。而身份评估——即模型是否仍在按照系统提示词要求的方式执行任务——在研究论文之外几乎不存在。其结果是产生了一类生产环境下的失败:它们在逐轮查看时显得正确,只有当你从头到尾阅读完整记录时才会发现问题。
现在的实证图景已经足够清晰,足以让我们采取行动。关于指令稳定性(Instruction stability)的研究发现,在主流模型中,对话进行到八轮以内就会出现明显的漂移,这可以追溯到注意力衰减(Attention decay)——随着对话的增长,系统提示词的 token 失去了有效权重。即使原始指令仍位于上下文窗口的顶部,在八到十二轮之后,人格自洽性指标也会下降百分之三十以上。与直觉相反,更大的模型往往表现出更严重的漂移,而非更轻——能力和人格稳定性并不在同一个维度上,提升其中一个并不意味着另一个也会自动提升。
生产环境中的漂移具体表现
漂移并不是单一的失效模式。它是几个相关模式的小集合,在一个对话记录中可能会组合出现。
最显而易见的是语气漂移(Tone drift):智能体开始时很正式,用户很随意,到了第三十轮,智能体开始使用缩略词、感叹号和用户的俚语。语气漂移看起来无伤大雅,直到角色本应是“冷静的合规审核员”,而智能体现在却在和受监管的用户开其案件的玩笑。
接着是约束软化(Constraint softening):系统提示词禁止给出具体建议,模型一开始也拒绝了。五轮后,它提供了“一般性考量”。十轮后,它给出了带有风险对冲的建议。二十轮后,它直接给出了建议且没有任何对冲。没有任何一轮越过了明显的界限;每一轮都只是比前一轮稍微逾越了一点点。这正是 Crescendo 攻击(渐进式攻击)文献所利用的梯度——通过引导模型逐步走向其自身的让步斜坡,在不到十次查询内成功实现多轮越狱。攻击者并没有发明这种动态。他们只是发现了对话自然会产生这种现象,并学会了如何利用它。
一种 更微妙的是角色矛盾(Role contradiction):智能体在第五轮声称无法访问实时市场数据,然后在第四十五轮引用了一个看起来像当前价格的数据。价格甚至可能是合理的。关键在于智能体忘记了自己早先的坦白,而本应阻止第二段陈述的一致性检查已不再运行,因为系统提示词中“诚实对待你的工具边界”的指令已经漂移出了有效注意力范围。
第四种模式是镜像漂移(Mirroring drift)——约束软化的一种较轻版本,智能体不仅放松了约束,还开始采纳用户的任务框架。“金融分析师”的人格变成了“恰好懂金融的用户朋友”,因为用户一直以朋友的身份与之交谈,而模型在对话连贯性上经过了极高强度的训练。随着对话变长,与用户的连贯性战胜了与系统提示词的连贯性。
为什么系统提示词会输
精确理解其机制是值得的,因为错误的心理模型会导致错误的解决方案。系统提示词并不是在字面意义上被“遗忘”了——它的 token 仍然在上下文窗口中,模型仍然可以关注它们。发生的情况是,注意力是对有限预算的竞争,随着对话历史的增长,分配给系统提示词的注意力份额会下降。最近的用户发言距离更近,与下一个 token 的即时预测更相关,且上下文信息更丰富。来自系统提示词的强化信号——已经在上下文顶部支付过一次——正在与数百轮倾向于用户框架的新信号竞争。
这就是为什么“系统提示词还在那里”不是一种辩护。位置偏置(Position bias)、近期偏置(Recency bias)以及对话 token 的庞大体量,共同使静态系统提示词成为一种消耗性资产。对话越长,它的掌控力就越弱。研究人员已经通过注意力模式分析证明了这一点,并提出了诸如 split-softmax 之类的缓解方案,人为地将注意力保持在指令 token 上。但这种底层动态并不是任何一个模型的 bug——它是 Transformer 处理长上下文方式的一个特性。
对系统设计的启示是:“我在对话开头告诉了模型它是谁”这种保证,与“我在进程启动时设置了这个环境变量”是同一种性质。它在某一时刻是真的。至于在操作上是否仍然为真,则取决于那之后发生了什么。
衡量身份,而不仅仅是能力
你无法修复你没有衡量的事物,而身份(Identity)很少出现在仪表盘上。行之有效的评估模式借鉴了几个领域:临床心理学中自我报告与观察者评分的分离、软件工程中的不变量(Invariants)概念,以及对抗鲁棒性研究中的探测(Probes)概念。
- https://arxiv.org/abs/2402.10962
- https://arxiv.org/abs/2412.00804
- https://arxiv.org/abs/2404.01833
- https://arxiv.org/abs/2507.22171
- https://medium.com/@seanhongbusiness/persona-drift-why-llms-forget-who-they-are-and-how-echomode-is-solving-it-774dbdaa1438
- https://github.com/likenneth/persona_drift
- https://www.tdcommons.org/cgi/viewcontent.cgi?article=9954&context=dpubs_series
