跳到主要内容

对齐税:衡量交付安全 AI 的真实成本

· 阅读需 11 分钟
Tian Pan
Software Engineer

构建生产级 AI 系统的团队往往通过同一种方式发现“对齐税”:有人投诉延迟,另一个人将其追踪到审核流水线,于是原本隐性的成本项突然变得显而易见。到那个阶段,安全层已经层层堆叠 —— 拒绝分类器、输出过滤器、毒性评分器、人力介入队列 —— 却没有任何人对它们进行过单独测量。拆解它们是痛苦、昂贵且在政治上充满争议的,因为现在看起来你是在反对安全。

更好的路径是从第一天起就将安全开销视为一等公民的工程指标。对齐税是真实的,它是可衡量的,并且具有复利效应。150 ms 的防护栏检查听起来还可以,直到你在智能体工作流中将三个检查串联在一起,并纳闷为什么你的 P95 延迟达到了 4 秒。

对齐税到底为你换来了什么

在衡量成本之前,先明确你的衡量基准。安全层执行几个截然不同的功能,这些功能很容易被统一归类到名为“安全”的单一思维框中:

拒绝分类器(Refusal classifiers) 阻断根本不该到达模型的输入 —— 提示词注入尝试、越狱、违反政策的请求。它们在生成之前运行。

输出过滤器(Output filters) 检查模型响应是否存在内容违规、PII(个人身份信息)泄露、虚构事实或偏离主题的回答。它们在生成之后运行,有时需要第二次模型调用。

推理监控器(Reasoning monitors) 验证智能体的思维链是否与其设定的目标一致,且未在会话中途被操纵。这些监控器的成本尤其高昂,因为它们需要检查长上下文。

人力介入检查点(Human-in-the-loop checkpoints) 将不确定的案例上报给人工审核员。这里的延迟不是以毫秒计,而是以分钟或小时计。

每一个环节都有不同的成本特征、不同的失效模式和不同的权衡空间。将它们视为单一的“安全开销”数字会丢失所有这些信号。

真实数据

具体的基准测试有助于校准预期。根据已发布的评估和生产报告:

  • 一个基于 Transformer 的内容分类器根据模型大小以及是否运行在专用硬件上,每次请求大约增加 200–2,000 ms 的延迟。
  • PromptGuard 风格的注入检测增加了约 7% 的延迟开销,同时减少了 67% 的成功注入攻击。
  • 运行 LlamaGuard-7B 作为防护栏至少需要一块 A10G GPU。在同一个推理路径上堆叠六个独立的防护栏意味着该层级需要六个独立的 GPU 分配。
  • 当提示词注入检测流水线中启用推理时(模型解释其决策),延迟比仅分类模式增加 18–67%。禁用推理可使中值延迟降低 40%。
  • 在大型推理模型中,安全对齐在某些评估中会使任务性能下降高达 32% —— 这不是因为推理开销,而是因为安全训练与能力训练为了同样的权重更新而竞争。

最后一个数字是最令人不安的。大多数关于延迟开销的讨论都将安全视为固定质量模型外的一个包装。更深层的对齐税嵌入在模型权重本身中:为了让模型更安全,你放弃了部分能力。

如何监控安全开销

在实践中奏效的监控方法是将安全遥测与应用遥测分开,然后在分析时将它们合并。有三类信号至关重要:

逐层延迟追踪。 每个安全组件 —— 输入分类器、输出过滤器、升级检查 —— 都应该是分布式追踪中的一个命名跨度(span)。OpenTelemetry 非常适合此用途。你希望独立查看每一层的 P50、P95、P99 延迟,并希望将延迟峰值与引起它的特定层相关联,而不是只看到总延迟上升并纳闷原因。

误报率和漏报率。 一个在 0.1% 的流量上触发的安全层看起来很便宜。如果这些触发中有一半是误报(合法的请求被阻止),那么实际的用户摩擦成本远比延迟数字显示的要高。跟踪申诉或人工审核的通过率,并将这些作为准确性信号反馈给每个分类器。

下游任务指标。 最重要的对齐税衡量标准不是安全检查的成本,而是遇到安全干预的用户与未遇到安全干预的用户在任务完成率、会话长度或转化率方面的差异。这是完整成本体现的地方。安全团队很少负责这项测量;产品团队也很少将其关联回具体的安全决策。

将这三个信号放在一起,就能得出一个站得住脚的“单位安全成本”数字。没有它,你就是在凭感觉而非数据来协商安全与性能之间的权衡。

生成前 vs 生成后:干预时机至关重要

安全栈中最重要的架构决策是检查相对于生成的发生位置。这一选择对延迟和质量的影响比你选择的具体分类器更大。

生成前输入过滤 运行成本低(没有模型输出需要评估),并在消耗昂贵的生成计算之前停止错误请求。它的弱点是只能根据提示词中的内容采取行动,而不能根据模型对它的处理采取行动。尽管有输入过滤,但提示词注入攻击仍能成功的漏洞是已知的 —— 模型可能会被检索内容中嵌入的、输入过滤器从未见过的指令所操纵。

生成后输出过滤 捕获的问题范围更广:偏离政策的响应、虚构的医疗声明、通过检索泄露的 PII、孤立看似乎良性但在语境中存在问题的内容。成本是你已经支付了生成费用。如果你的生成后过滤器阻止了 5% 的响应并需要重新生成,那么你至少为总生成成本增加了 5% —— 如果重新生成本身触发了进一步的过滤,增加的成本会更多。

并行评估 使用一个单独的小型模型与生成过程并发运行安全检查。对于等同于生成前的检查,延迟开销趋近于零,但增加了资源消耗。当准确性要求很高且你能负担起计算费用时,这是正确的模式:安全模型与生成模型同时运行,响应被保留直到两者都完成。

对于已经度过“堆叠分类器并祈祷”阶段的团队来说,使用专门针对你的政策训练的轻量级模型进行生成后过滤已成为标准的成本效益方案。核心见解是:一个针对你特定内容政策训练的 1B 参数分类器,在你的分布上表现优于通用的 7B 安全模型,且成本仅为后者的一小部分。

制定原则性的权衡取舍

大多数安全工程的失效模式在于隐式的权衡取舍:有人因为发生了一次特定事件而添加了一个层级,当这类事件变得罕见时却没人移除该层,导致堆栈不断堆积。要让这一切变得显式,需要就几件事达成共识:

你试图防止的伤害单位是什么? 宽泛的类别(“有害内容”)几乎无法优化,因为每一项提议的优化都可以被界定为增加了伤害。特定、可衡量的伤害类型(“导致数据外泄的提示词注入攻击”、“包含 HIPAA 保护标识符的响应”)则能实现精准校准的防御。

每个层级可接受的误报率是多少? 这是大多数团队都没有记录立场的地方。拒绝分类器 1% 的误报率意味着 1% 的合法请求会被拦截。在每天 10,000 次请求的情况下,这意味着每天有 100 位用户在没有做错任何事的情况下被拒绝。这种商业影响是可量化的;如果你进行了正确的监测,特定误报容忍度的安全收益也是可量化的。

不确定情况的升级路径是什么? 人机协同审核是自动系统无法自信处理情况的正确答案——但“不确定”需要一个经过校准的置信度阈值,而不是“任何可能有问题的”。将过多的内容路由到人工审核意味着审核员会成为瓶颈和成本中心。路由过少则意味着自动化决策在系统性难题上会出错。

将这些内容记录下来的纪律——伤害类型、可接受的误报率、升级阈值——将对齐税从一种弥漫的焦虑转化为一组可以优化的工程参数。

真正有效的效率模式

为了在不降低安全性的前提下减少安全开销,出现了几种模式:

基于置信度的路由。 先运行一个快速、廉价的分类器。仅将它不确定的案例路由到更大、更昂贵的模型。输出校准概率而非二元决策的元分类器使这种模式变得可行。在大多数生产分布中,70–85% 的请求可以通过轻量级扫描解决。

模型大小匹配。 安全分类并不需要与处理生成的模型相同。当 1B 参数的微调分类器能在其政策类别上实现相同的准确率时,团队若在 GPT-4 级别的模型上运行安全检查,就是在为没有可衡量收益的任务支付 100 倍的成本溢价。根据任务匹配合适的模型大小是目前最高杠杆的效率举措。

训练中的安全,而不仅仅是推理。 宪法 AI(Constitutional AI)和 RLAIF 方法将对齐工作从运行时的过滤器转移到模型权重中。宪法训练模型在推理时的成本对于其在训练期间吸收的对齐内容来说是零——你不需要添加过滤器来捕捉模型已经学会不去做的行为。权衡之处在于训练成本更高,且更新需要微调而非热替换过滤器。但对于稳定的政策类别(不生成 CSAM,不协助制造生物武器),训练时的对齐在成本上优于推理时的过滤。

可观测性作为驱动力。 拥有全面安全遥测的团队能做出更好的权衡决策,因为他们被迫面对每一层作为成本细项的代价。无形开销带来的心理压力是增加;可见成本带来的压力是证明其合理性。监测改变了激励结构。

闭环

关于对齐税的讨论通常始于对延迟的抱怨,终于关于哪些层是“必要”的局部经验博弈。这是一种错误的循环。正确的循环始于伤害指标,贯穿具有已知误报率的受监测安全层,最后形成记录在案的单位安全成本,并像任何其他基础设施成本一样定期审查。

生产规模的安全工程是具有伦理维度的成本工程。将其视为事后的想法——在产品构建后添加的一堆过滤器——既昂贵,又不如从一开始就将其集成到系统架构中安全。做得好的团队并不是那些减少安全层的团队;而是那些衡量了所有层的团队。

References:Let's stay in touch and Follow me for more thoughts and updates