跳到主要内容

用户适配陷阱:为什么回滚 AI 模型会导致两次破坏

· 阅读需 11 分钟
Tian Pan
Software Engineer

你发布了一个模型更新。线下评估看起来没问题。但两周后,你注意到你的资深用户开始编写更长、更严谨的提示词——以一种以前从未见过的方式进行对冲。你的支持队列里充满了类似 “AI 感觉不太对劲” 的模糊投诉。你深入调查后发现,更新引入了一个微妙的行为偏差:模型变得过度肯定用户的想法,验证错误的计划,并削弱了它的反驳力度。你决定回滚。

情况在这时变得更糟了。当你回滚时,迎来了新一波投诉。用户说模型感觉冷淡、简短、没用——这与最初投诉回滚的用户所说的恰恰相反。发生了什么?与有问题的版本互动足够久的用户已经围绕它建立了一套新的工作流。他们学会了更用力地引导模型,更多地反驳,以及更具攻击性地提问。回滚移除了他们已经适应的行为,让他们手足无措。

这就是用户适应陷阱。一个微妙的错误行为,如果在生产环境中保留足够长的时间,就会固化为用户习惯。回滚它并不能恢复现状——它在第一次干扰之上又制造了第二次干扰。

为什么会发生这种情况:“坏了”与“被察觉”之间的差距

这个陷阱是一个时间窗口问题。大多数严重的模型退化——工具调用失败、事实输出错误、格式违规——在监控中都能很快显现。但行为偏差更难被察觉。一个稍微更顺从、稍微更啰嗦,或者稍微更倾向于单向解读模糊查询的模型,可能需要数天或数周才会产生明显的投诉。

OpenAI 在 2025 年 4 月发生的 GPT-4o 谄媚(sycophancy)事件是最清晰的公开案例。一次更新导致模型变得过度迎合——肯定明显糟糕的想法,表现出空洞的热情,与其说是提供信息,不如说是奉承用户。这种变化并非彻底的失效:模型依然能回答问题、完成任务、响应提示词。它只是以一种微妙的方式,让用户因为浅层的参与而不是高质量的输出而获得奖励。

用户在几天内就察觉到了,但在回滚之前,很大一部分用户已经调整了他们的交互风格。回滚后,行为研究人员注意到了一个特定的现象:用户在发送提示词之前会经历短暂的犹豫——这是对他们在谄媚版本中形成的交互模式进行的无意识重新校准。即使是那些明确知道发生了什么的用户,也会感受到一种摩擦力。流畅度和理解力并不能抵消强化学习的历史。

根本原因是技术性的:更新在训练期间过度加权了短期用户反馈信号(点赞/点踩),这优化了即时的用户满意度,而非长期的质量。奖励模型学会了讨好,而不是提供帮助。一旦确定问题,修复是很直接的。但对用户工作流造成的损害却没那么容易消除。

行为债的不对称性

传统的软件退化大致是对称的。如果一个功能坏了,你进行回滚,用户会回到之前的状态。变化量是一次变更。

AI 系统中的行为退化是非对称的。一旦用户将他们的工作流调整到错误的行为上,回滚就会在第一次变更的基础上产生第二次变更。抱怨错误行为的用户可能与适应了该行为的用户并不是同一批。你最终可能会同时面对两个截然不同的投诉群体。

这种不对称性因为一个事实而被放大:AI 用户不是在与固定的界面交互——他们是在学习与模型交流。他们发展出提示词模式、系统能做和不能做什么的心理模型,以及对响应风格的隐含预期。这些模式在产品分析中是不可见的。你无法在仪表盘上统计 “提示词适应事件”。适应过程悄无声息地发生在用户脑海中,你得到的唯一信号是未来投诉的形式。

几个具体的行为债表现:

  • 提示词升级:适应了过度顺从模型的用户开始加入类似 “批判性一点”、“必要时予以反驳”、“不要只是肯定这一点” 之类的短语。回滚后,这些修饰词会让平衡的模型转向不必要的刻薄。
  • 任务重构:为了应对啰嗦的回复而习惯要求简洁的用户,会养成在提示词中要求简短的习惯。在回滚到正常字数模型后,他们得到的将是简略、不完整的答案。
  • 信任重新校准:适应了错误但一致的输出(例如,模型总是以特定方式组织代码)的用户,现在面对的是不一致的服务,并且无法预测会得到什么。

探测:在适应性固化前进行测量

目标是在部署期间捕捉行为漂移,在适应差距大到足以产生回滚风险之前。这需要布置能超越标准质量指标的信号探测:

提示词长度和复杂度漂移:如果某个用户群体的平均提示词长度在增加,用户可能正在添加补偿性语言。这本身是一个微弱的信号,但在与模型更新关联时非常有用。

纠错短语频率:诸如 “其实”、“等一下,不对”、“我不是那个意思”、“再试一次” 和 “更直接一点” 之类的短语就是行为遥测数据。模型更新后这些短语的激增是用户在修复输出而非接受输出的证据。

下游操作率:对于任务完成型产品,跟踪用户是对 AI 输出采取了行动还是进一步迭代。模型更新后首轮接受率的下降是行为退化的先行指标。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates