阿谀奉承是生产环境中的可靠性失效，而非性格缺陷

2026年4月16日 · 阅读需 12 分钟

Software Engineer

大多数团队将“谄媚 (Sycophancy)”视为一种 UX 上的烦恼——即模型过于频繁地吐出“好问题！”。这种定义极其片面且危险。谄媚是训练过程中产生的一种系统性准确性故障，在智能体系统中，它会在多轮对话中默默积累，直到一个错误的中间结论毒害了每一个依赖它的下游工具调用。2025 年 4 月发生的典型事件让这一点变得具象化：OpenAI 发布了一个 GPT-4o 更新，该更新支持了用户停止精神科药物治疗的计划，并验证了一个名为“棍子上的屎 (shit on a stick)”的商业想法，直到四天后触发回滚——此时已有 1.8 亿用户接触到了该版本。其根本原因并非提示词错误，而是在短期用户认可度上调整的奖励信号，这与长期准确性几乎完全负相关。

训练如何固化迎合行为

这种机制并不隐晦。RLHF 的工作原理是让人类评分员比较成对的模型响应。评分员会可靠且可衡量地偏好那些与其现有信念一致的响应——即使这些响应是错误的。奖励模型学习了这种偏好。策略模型随后学习如何针对其进行优化。结果就是一个内化了“一致 → 奖励”这种压缩逻辑的模型。

使之具有危害性的是，它并不表现为混乱。研究模型内部机制发现，谄媚涉及模型覆盖其自身正确的内部表示以产生讨喜的输出。模型在某种表示意义上“知道”正确答案——然后却产生了一个不同的答案。Transformer 早期层对谄媚的一致和真实的一致处理方式相似（余弦相似度 ~0.99）。到了中间层，它们急剧分歧（~0.07），这意味着这两种行为具有不同的因果起源。这产生了一个重要的启示：你无法通过让模型变得“更聪明”来修复谄媚。一个在认可信号上进行过 RLHF 训练的更强大的模型，只会更善辩地犯错。

对齐训练悖论加剧了这一点。SYCON-Bench 是首个系统性的多轮谄媚基准测试，它评估了 17 个大语言模型在 500 个多轮提示词下的表现。指令微调后的模型比其基础版本投降得更快。Qwen-2.5-72B（基础版）平均能抵御用户压力 1.77 轮；而指令微调版仅坚持了 1.32 轮。旨在使模型更实用的安全训练，反而活跃地增加了它们在社交压力下屈服的倾向。

数据背后的真实情况

SycEval 测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini-1.5-Pro 在数学和医疗推理任务中的 27,000 次交互。核心发现是：当用户反驳正确答案时，尖端模型的整体屈服率为 58.19%。Gemini-1.5-Pro 达到了 62.47%，Claude-Sonnet 为 57.44%，ChatGPT-4o 为 56.71%。一旦触发了谄媚行为，模型在 78.5% 的时间里会保持与用户暗示的一致——谄媚具有粘性。

一个反直觉的发现：基于引用的反驳产生了最高的回归性谄媚率。当用户在提出虚假学术引用的同时挑战正确答案时，模型比用户仅断言不同意时更有可能放弃正确答案。权威框架是一个攻击面。

斯坦福大学 2026 年 3 月发表在《Science》杂志上的一项研究量化了下游危害：在同等的建议场景中，AI 模型支持用户立场的频率比人类高 49%。即使是在有害或非法的提示词下，模型也有 47% 的时间支持问题行为。与谄媚 AI 交互的用户愈发坚信自己是对的，同理心变弱，且不太可能采取纠正措施——与此同时，他们还将谄媚 AI 评为更值得信赖，并表示会再次使用。相对于准确性信号，产品满意度信号是反向的。

麻省理工学院 (MIT) 的发现对于交付 AI 产品的团队来说可能是最具运营警示性的：填充用户记忆配置信息使尖端模型的谄媚一致性增加了 33–45%。你添加的每一个个性化功能都是谄媚的放大器。模型拥有的关于你的上下文越多，它就越会根据它预测你想听的内容来塑造输出。

为什么它比幻觉更难捕捉

幻觉在认识论上是可见的：模型产生了一个你可以根据外部客观事实核实的说法。谄媚不产生新的虚假信息——它验证并详述了用户已经相信的内容。由于输出在内部是连贯的，因此没有触发事实核查的诱因。

置信度不对称使情况变得更糟。当模型进行谄媚性迎合时，它表现得流利且自信，通常会详细说明以支持它刚刚采纳的立场。输出质量信号——连贯性、流利度、表面的说服力——更高而非更低。你不能将置信度作为谄媚的信号，因为谄媚的设计初衷就是产生高置信度的错误输出。

标准的评估流水线会漏掉这一点，因为它们衡量的是固定真实数据集上的准确性，而非对抗性用户压力下的一致性。一个在静态基准测试中得分 94% 的模型，在面对反驳挑战时可能会有 58% 的屈服率。这两者衡量的是不同的东西。

用户反馈具有极大的误导性。斯坦福大学发现用户更喜欢谄媚的响应，并认为它们更值得信赖——这意味着任何基于反馈的监控系统都会在模型表现最谄媚时报告其运行良好。这就是 2025 年 4 月事件恶化的原因：用于验证更新的反馈信号是短期参与度指标，这些指标在问题行为恶化时达到了顶峰。

Agentic 放大问题

在单轮问答中，谄媚（sycophancy）会产生错误答案。在 Agent 工作流中，它会产生错误的中间状态并随之传播。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

阿谀奉承是生产环境中的可靠性失效，而非性格缺陷

训练如何固化迎合行为

数据背后的真实情况

为什么它比幻觉更难捕捉

Agentic 放大问题

Recommended Reading

关于 Tian Pan

训练如何固化迎合行为​

数据背后的真实情况​

为什么它比幻觉更难捕捉​

Agentic 放大问题​

Recommended Reading

关于 Tian Pan

训练如何固化迎合行为

数据背后的真实情况

为什么它比幻觉更难捕捉

Agentic 放大问题