对齐税:衡量交付安全 AI 的真实成本
· 阅读需 11 分钟
构建生产级 AI 系统的团队往往通过同一种方式发现“对齐税”:有人投诉延迟,另一个人将其追踪到审核流水线,于是原本隐性的成本项突然变得显而易见。到那个阶段,安全层已经层层堆叠 —— 拒绝分类器、输出过滤器、毒性评分器、人力介入队列 —— 却没有任何人对它们进行过单独测量。拆解它们是痛苦、昂贵且在政治上充满争议的,因为现在看起来你是在反对安全。
更好的路径是从第一天起就将安全开销视为一等公民的工程指标。对齐税是真实的,它是可衡量的,并且具有复利效应。150 ms 的防护栏检查听起来还可以,直到你在智能体工作流中将三个检查串联在一起,并纳闷为什么你的 P95 延迟达到了 4 秒。
