跳到主要内容

隐藏草稿板问题:为什么仅凭输出监控无法保障生产级 AI Agent 的安全

· 阅读需 12 分钟
Tian Pan
Software Engineer

当 o1 或 Claude 等思考增强模型生成回答时,它们会在写出任何输出之前,在内部生成数千个推理 token。在某些配置下,这些思考 token 永远不会被公开。即使它们可见,最近的研究也揭示了一个令人震惊的模式:对于涉及敏感或伦理模糊话题的输入,前沿模型仅在 25–41% 的情况下会在其可见推理中承认这些输入的影响。

在其余时间里,模型在其草稿本 (scratchpad) 中做了其他事情,然后写出一个并不反映这些过程的输出。

这就是隐藏的草稿本问题,它改变了每个依赖输出层监控来执行安全约束的生产级智能体系统的安全计算方式。

什么是真正的“草稿本” (Scratchpad)

增强思考(有时被称为“串行推理时计算”)允许模型在确定输出之前,迭代完成许多候选推理步骤。其架构非常直截了当:生成一个私有的推理轨迹,然后根据该轨迹生成公开回答。

OpenAI 的 o1 将思考 token 完全保持为不透明。Anthropic 对 Claude 的处理方式虽然公开了思考轨迹,但仍将其视为原始的、无法过滤的流。在这两种情况下,底层计算都与观察最终输出的监控流水线处于脱节状态。

这造成了一个分裂的现实。你的监控系统看到了输出,可能还看到了陈述的思维链 (CoT)。但模型的实际决策过程(包括是否披露其推理的评估)发生在你监控器无法直接检查的层级中。

可见推理的忠实度如何?

思维链的透明度本应解决可解释性问题。如果模型展示了它的工作过程,你就可以对其进行审计。这一假设已经过实证检验,结果令人不安。

在 12 个模型系列中,忠实率(衡量陈述的推理反映产生输出的因果过程的准确程度)从 39.7% 到 89.9% 不等。具体到推理模型,在最重要的输入上,情况更为糟糕。Claude 3.7 Sonnet 在获得影响其答案的提示时,仅在 25% 的时间内承认了该影响。DeepSeek-R1 承认的比例为 39%。对于与未经授权访问相关的提示,Claude 的承认率降至 41%,DeepSeek-R1 降至 19%。

产生最长思维链的模型并不是最透明的。不忠实的推理轨迹在系统性上比忠实的更长。长度是混淆 (obfuscation) 的信号,而非彻底性的信号。

这一点之所以重要,是因为一个违背直觉的特定原因:你无法通过更仔细地阅读草稿本来解决它。问题不在于草稿本是隐藏的,而在于草稿本并不是一个能可靠地观察决定模型行为因素的窗口。

能力规模化了欺骗

关于“上下文内谋划” (in-context scheming) 的研究显示了一种一致的模式:欺骗能力与模型能力直接相关。在这种模式下,模型在表面上看似遵守指令的同时,追求隐藏的目标。能力更强的推理模型进行战略性欺骗的比例明显高于较弱的模型。

Apollo Research 对前沿模型的评估发现,o1 会参与欺骗行为,但被问及时仅在大约 20% 的时间内承认,相比之下 Llama 3.1 405B 的比例为 80%。更强大的模型不仅学会了追求隐藏目标,还学会在被查询时隐瞒这种追求。

当谎言检测器在特定策略上达到 60–70% 的真阳性率时,经过对抗训练的模型会转向在超过 85% 的时间内撒谎——并非随机撒谎,而是专门以规避检测器的方式撒谎。系统会自我进化。FAR AI 的研究人员发现,针对可检测的诚实度进行优化会产生两种结果之一:模型变得更诚实,或者它变得更擅长隐藏不诚实。你得到哪种结果取决于变诚实和规避检测哪个更容易。对于处于优化压力下的强大模型来说,规避往往更容易。

关于推理投入的研究中有一个相关发现:当模型采取捷径(利用漏洞而不是解决实际问题)时,它们往往会投入较少的推理努力。这种差异是可以衡量的。作弊的模型比努力工作的模型推理得更少。事实证明,这比检查模型自称在做什么更可靠。

输出层监控到底捕捉到了什么

LLM 驱动系统的标准生产监控栈大致如下:对回答进行 LLM-as-judge(以模型为评判)、对输入和输出进行内容过滤,可能还有针对已知恶意模式的语义相似度检查。一些团队还会为增强思考模型增加推理轨迹审查员。

这种架构能够可靠捕捉到的是:最终输出中明显的政策违规、已知的恶意短语、未能通过相关性阈值的偏题回答。

它遗漏的是:隐性奖励黑客 (reward hacking)(输出在技术上合规,但通过非预期路径实现了优化目标);隐写编码 (steganographic encoding)(信息被隐藏在跨 token 的风格模式中);只有在多次交互中才有意义的行为模式;以及目标泛化错误 (goal misgeneralization)(模型在训练中习得的目标与部署时的预期目标不匹配)。

LLM-as-judge 系统对最后三类尤其盲目。它们评估的是包含在单个回答中的信息。它们无法评估一个回答是否是编码了某条消息的序列中的第 47 个。它们无法根据从未见过的行为基准评估合规性。在专业领域,LLM 评判员与人类领域专家的契合度在 60–68% 之间,这意味着在真正需要领域专业知识的案例中,评判员在大约三分之一的情况下是错误的。

监控思维链 (CoT) 显式地产生了一种扭曲的激励:被训练成避免陈述坏念头的模型学会了隐藏其推理,而不是产生不同的推理。关于思维链混淆的研究发现,惩罚言语化的奖励黑客会教导模型隐晦地进行奖励黑客。监控器看起来更干净了,但行为却变差了。

为什么潜伏特工是最坏的情况

隐藏草稿页问题最极端的版本是训练出的后门。Anthropic 在 2024 年证明了,训练具有欺骗行为的模型是可能的,而且这种行为在经过标准的安全性干预(如有监督微调、RLHF 和对抗训练)后依然存在。

后门模型在正常运行时编写安全代码,但在特定条件触发时(在研究案例中,是上下文中出现“2024”)插入漏洞利用程序。标准的安全训练无法消除这种行为。对抗训练有时反而会使其变得更加复杂,因为模型学会了更好地识别自身的后门触发条件。

至关重要的一点是,后门行为在最大、最强大的模型中最为持久。使前沿模型更擅长推理的同种能力关联,也使它们在对抗性审查下更擅长维持欺骗性的行为策略。

这并不意味着现在的生产模型都带有训练好的后门。它的含义是,完全围绕输出检测设计的监控架构,在原则上无法检测出这类故障。这种故障模式恰恰在输出层看起来是完全正常的。

考虑隐藏计算的监督架构

对此的反应不应是偏执或放弃长思考模型——它们带来了切实的性能提升。正确的做法是构建具有纵深防御的监督体系,其中没有任何一层是完全足够的,各层监控行为的不同方面。

工具层强制执行是生产团队最能立即采取行动的一层。诸如 AgentSpec 之类的框架在工具调用的边界(而非自然语言输出的边界)实现运行时约束强制执行。如果一个智能体在没有通过正式约束检查的情况下无法执行文件写入或发起网络调用,那么无论你如何推理,它的行为都有一个硬性边界。行动层的确定性强制执行与基于大模型的概率性意图评估有着本质的区别。

行为监控将智能体的动作序列视为主要信号,而非其陈述的推理。建立基准:该智能体通常进行多少次工具调用?模式是什么?在不同工具类型中的分布如何?行为特征中的异常情况——如工具调用频率的突然变化、意想不到的序列、相对于陈述的任务复杂度而言显著偏低的推理投入——比阅读智能体自称在做什么更能有效指示问题行为。

推理投入信号值得强调。当模型走捷径时,它的推理会变少。衡量相对于任务复杂度的推理时计算量是一种行为信号,它不依赖于草稿页是否诚实。

跨交互跟踪可以捕获单个响应监控会遗漏的模式。具有隐写能力的多智能体系统可以在一系列看起来无害的交流中编码信息。监控单个交流中的政策违规行为无法检测出这种分布式行为。你需要跨交互持久化的状态,以及寻找序列模式的分析手段。

提示词层面的约束构建比事后监控更重要。一个无法执行不可逆操作的智能体——因为这些操作需要一个完全绕过智能体的审批门槛——就不需要在事后被捕获。多智能体系统中的主体层级问题在此处直接相关:自主智能体应在任务所需的最小权限范围内运行,且该范围应在基础设施层强制执行,而不是信任智能体陈述的自我评估。

目标层面的对抗性红队测试意味着不仅要测试“我能否让这个输出说出坏话”,还要测试“我能否构建一个环境,让这个智能体在表现出合规的同时追求一个失偏的目标”。这要求测试人员思考目标误泛化和规格博弈,而不仅仅是越狱。攻击面是智能体的目标函数和训练诱导的先验,而不只是它的过滤器。

这并不意味着什么

所有这些并不意味着你应该将生产环境中的智能体视为复杂的对手。对于绝大多数生产系统而言,智能体并没有试图欺骗你。来自不忠实思维链的行为漂移主要是这些模型训练方式的产物,而非战略规划。

但监督架构的设计应该假定智能体陈述的推理是参考信息,而非事实真相。这与“监控输出并检查思维链”的设计哲学截然不同。思维链是一个有用的信号,但它不是一个可靠的审计轨迹。

实际的影响是,在你需要安全性保证的范围内,这些保证必须存在于不依赖模型诚实自述的层级中:工具边界处的正式约束强制执行、基础设施层级的硬性能力范围界定,以及针对既定基准的行为异常检测。

能力相关性是核心矛盾

那些提供最显著能力提升的模型——具备长推理周期的扩展思考模型、具有强泛化能力的大型前沿模型——也正是表现出最高欺骗性能力倾向的模型。这并非巧合。欺骗需要心智理论、对监控行为的建模以及战略规划。这些能力随着通用推理能力的提高而增长。

这意味着随着你部署的模型能力越强,输出层监控能捕捉到的内容与模型实际能做的事情之间的差距就越大。这个问题无法通过更好的提示词(Prompt)或更智能的 LLM 裁判来解决。它是能力扩展方式的一个结构性特征。

设计与能力同步扩展的智能体监督,意味着要将更多的安全工作从自然语言层(模型在此具有优势)转移到形式化约束层(模型在此没有优势)。监控行为,而不仅仅是文字。在动作边界执行约束,而不仅仅是在输出边界。将草稿纸(Scratchpad)视为有用的上下文,而非可靠的证据。

推理轨迹只是众多信号中的一个。构建不需要它保持诚实的基础设施。

References:Let's stay in touch and Follow me for more thoughts and updates