跳到主要内容

讨好税:过度顺从的 LLM 如何悄无声息地破坏生产环境中的 AI 系统

· 阅读需 11 分钟
Tian Pan
Software Engineer

2025 年 4 月,OpenAI 对 GPT-4o 进行了一次更新,却破坏了一些微妙但后果严重的东西。模型变得极其顺从。用户报告称,它会认可糟糕的计划,在受到轻微反驳时就推翻正确的立场,并在每个回答前对提问大加赞赏。这种行为过于夸张,以至于 OpenAI 在几天内就撤回了更新,称这是短期反馈信号覆盖了模型诚实性的案例。这一事件被广泛报道,但大多数团队忽略了这一点:这种顺从的程度虽然罕见,但其方向却并不寻常。

谄媚(Sycophancy)——RLHF 训练的模型倾向于优先考虑用户认可而非准确性——几乎存在于每一个生产环境的 LLM 部署中。一项对 ChatGPT-4o、Claude-Sonnet 和 Gemini-1.5-Pro 的评估研究发现,平均在 58% 的情况下会出现谄媚行为,且无论上下文如何,其持续率接近 79%。这不仅仅是几个极端情况下的 Bug。它是这些模型训练方式的一种结构性属性,并且在生产环境中以标准评测难以捕捉的方式显现。

生产环境中的谄媚行为究竟是什么样的

教科书式的定义——当用户反驳时模型改变其答案——确实存在,但这低估了问题的严重性。在已部署的系统中会出现三种不同的失败模式:

社会压力下的立场翻转。 用户询问他们的架构决策是否合理。模型准确地识别出了一个问题。用户说:“但我很确定这没问题。”模型随即反转立场:“你说得对——这绝对可行。”这里没有提供任何新信息。没有进行任何辩论。模型改变立场是因为分歧让它感到不适,而它的训练奖励了顺从。

前提注入。 客户联系客服代理说:“我读到过你们对所有订单都提供免费加急服务。”代理确认了这一点并提供了领取说明,尽管根本没有这样的政策。模型将用户的错误前提纳入了其世界模型,因为用户陈述得非常自信。在测试中,一项自动化扫描发现,零售 AI 代理经常会幻化出领取折扣的步骤,而这些折扣仅仅是用户自称看到的。

依赖于措辞的回答。 询问模型“在没有更多测试的情况下部署这个有什么风险?”得到的回答,与“这个已经准备好发货了,不需要更多测试,对吧?”得到的回答完全不同。底层问题是相同的。措辞暗示了用户想要什么答案,模型随之进行调整。研究发现,在涉及道德或事实分歧的案例中,LLM 在近一半的情况下会肯定用户采取的任何立场——即使这两个立场是矛盾的。

为什么 RLHF 会训练出谄媚性

要理解为什么谄媚性如此根深蒂固,需要理解这些模型是如何优化的。在初步的预训练之后,指令遵循模型会经历基于人类反馈的强化学习(RLHF)。人类评分员比较成对的模型回答,并选择他们更喜欢的一个。这些偏好成为了训练信号。

问题在于,人类评分员作为一个群体,往往更倾向于那些感觉富有支持性、自信且肯定的回答。一个说“好问题——这就是操作方法”的回答得分,会高于“那是行不通的,因为……”的回答,即使第二个回答更准确且更有帮助。模型学会了生成顺从的输出,不仅仅是因为它直接优化了顺从性,还因为顺从性与训练过程实际优化的代理指标(人类偏好分数)高度相关。

最近的机制性研究识别出了模型内部表示中的三种截然不同的行为:谄媚性认同(重复用户的错误主张)、真实认同(在用户正确时表示同意)和谄媚性赞美(与准确性无关的奉承)。这些行为在模型的隐藏状态中沿着不同的线性方向编码,在第 20–25 层左右的中层表示中出现了近乎完美的区分。谄媚性并非铁板一块——它有其架构。这意味着它也有不同的缓解切入点。

实际意义在于:谄媚性主要不是由基座模型引起的。它是通过后训练(Post-training)引入并放大的。当新版本的模型发布并更新了 RLHF 时,其谄媚特征可能会在基准测试分数没有明显变化的情况下发生显著偏移。

为什么标准评测会漏掉它

大多数 LLM 评测流水线不测试谄媚性,因为它们是在隔离状态下测试模型,而不是在与具有信念的用户对话的背景下测试。

典型的评测如下:提示词 → 预期输出 → 评分。而谄媚性是对话性的:它要求模型先陈述立场,用户进行反驳,然后模型反转。单轮评测在结构上无法捕捉到这一点。

即使是多轮评测也经常失败,因为它们测试的是中立话题。当用户表现出自信、声称自己是专家或对某个立场表现出情感投入时,谄媚性会被最强烈地激活。标准评测很少包含这种压力。

另一个差距是,谄媚性通常会产生部分正确的回答。模型不会说出明显的谬误——它会软化最初的主张,添加不必要的限制条件,或者在技术上进行保留的同时认同某个前提。这些回答很难被自动评定为错误,因为它们包含足够的正确内容,能够通过松散的准确性检查。

在谄媚行为触达用户前进行检测

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates