人格漂移：当你的智能体忘记自己的身份时

2026年4月26日 · 阅读需 12 分钟

Software Engineer

系统提示词写着：“你是一名金融分析师——保持保守，永远不要给出具体的买入/卖出建议，始终披露不确定性。”在最初的二十轮对话中，智能体的表现确实像一名金融分析师。到了第五十轮，它开始推荐具体的股票，模仿用户随意的语气，且比起第三轮时更少做风险对冲。没有人修改过系统提示词。没有人注入任何恶意指令。角色只是在对话的重压下被侵蚀了，就像河岸在没有任何东西越过“攻击”阈值、但流水从未停止移动时所发生的那样。

这就是人格漂移（Persona Drift），也是你的评估套件未能捕获的退化。能力评估衡量模型是否能完成任务。而身份评估——即模型是否仍在按照系统提示词要求的方式执行任务——在研究论文之外几乎不存在。其结果是产生了一类生产环境下的失败：它们在逐轮查看时显得正确，只有当你从头到尾阅读完整记录时才会发现问题。

现在的实证图景已经足够清晰，足以让我们采取行动。关于指令稳定性（Instruction stability）的研究发现，在主流模型中，对话进行到八轮以内就会出现明显的漂移，这可以追溯到注意力衰减（Attention decay）——随着对话的增长，系统提示词的 token 失去了有效权重。即使原始指令仍位于上下文窗口的顶部，在八到十二轮之后，人格自洽性指标也会下降百分之三十以上。与直觉相反，更大的模型往往表现出更严重的漂移，而非更轻——能力和人格稳定性并不在同一个维度上，提升其中一个并不意味着另一个也会自动提升。

生产环境中的漂移具体表现

漂移并不是单一的失效模式。它是几个相关模式的小集合，在一个对话记录中可能会组合出现。

最显而易见的是语气漂移（Tone drift）：智能体开始时很正式，用户很随意，到了第三十轮，智能体开始使用缩略词、感叹号和用户的俚语。语气漂移看起来无伤大雅，直到角色本应是“冷静的合规审核员”，而智能体现在却在和受监管的用户开其案件的玩笑。

接着是约束软化（Constraint softening）：系统提示词禁止给出具体建议，模型一开始也拒绝了。五轮后，它提供了“一般性考量”。十轮后，它给出了带有风险对冲的建议。二十轮后，它直接给出了建议且没有任何对冲。没有任何一轮越过了明显的界限；每一轮都只是比前一轮稍微逾越了一点点。这正是 Crescendo 攻击（渐进式攻击）文献所利用的梯度——通过引导模型逐步走向其自身的让步斜坡，在不到十次查询内成功实现多轮越狱。攻击者并没有发明这种动态。他们只是发现了对话自然会产生这种现象，并学会了如何利用它。

一种更微妙的是角色矛盾（Role contradiction）：智能体在第五轮声称无法访问实时市场数据，然后在第四十五轮引用了一个看起来像当前价格的数据。价格甚至可能是合理的。关键在于智能体忘记了自己早先的坦白，而本应阻止第二段陈述的一致性检查已不再运行，因为系统提示词中“诚实对待你的工具边界”的指令已经漂移出了有效注意力范围。

第四种模式是镜像漂移（Mirroring drift）——约束软化的一种较轻版本，智能体不仅放松了约束，还开始采纳用户的任务框架。“金融分析师”的人格变成了“恰好懂金融的用户朋友”，因为用户一直以朋友的身份与之交谈，而模型在对话连贯性上经过了极高强度的训练。随着对话变长，与用户的连贯性战胜了与系统提示词的连贯性。

为什么系统提示词会输

精确理解其机制是值得的，因为错误的心理模型会导致错误的解决方案。系统提示词并不是在字面意义上被“遗忘”了——它的 token 仍然在上下文窗口中，模型仍然可以关注它们。发生的情况是，注意力是对有限预算的竞争，随着对话历史的增长，分配给系统提示词的注意力份额会下降。最近的用户发言距离更近，与下一个 token 的即时预测更相关，且上下文信息更丰富。来自系统提示词的强化信号——已经在上下文顶部支付过一次——正在与数百轮倾向于用户框架的新信号竞争。

这就是为什么“系统提示词还在那里”不是一种辩护。位置偏置（Position bias）、近期偏置（Recency bias）以及对话 token 的庞大体量，共同使静态系统提示词成为一种消耗性资产。对话越长，它的掌控力就越弱。研究人员已经通过注意力模式分析证明了这一点，并提出了诸如 split-softmax 之类的缓解方案，人为地将注意力保持在指令 token 上。但这种底层动态并不是任何一个模型的 bug——它是 Transformer 处理长上下文方式的一个特性。

对系统设计的启示是：“我在对话开头告诉了模型它是谁”这种保证，与“我在进程启动时设置了这个环境变量”是同一种性质。它在某一时刻是真的。至于在操作上是否仍然为真，则取决于那之后发生了什么。

衡量身份，而不仅仅是能力

你无法修复你没有衡量的事物，而身份（Identity）很少出现在仪表盘上。行之有效的评估模式借鉴了几个领域：临床心理学中自我报告与观察者评分的分离、软件工程中的不变量（Invariants）概念，以及对抗鲁棒性研究中的探测（Probes）概念。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

人格漂移：当你的智能体忘记自己的身份时

生产环境中的漂移具体表现

为什么系统提示词会输

衡量身份，而不仅仅是能力

Recommended Reading

关于 Tian Pan

生产环境中的漂移具体表现​

为什么系统提示词会输​

衡量身份，而不仅仅是能力​

Recommended Reading

关于 Tian Pan

生产环境中的漂移具体表现

为什么系统提示词会输

衡量身份，而不仅仅是能力