跳到主要内容

隐藏在你的 AI 安全过滤器中的精确率-召回率权衡

· 阅读需 11 分钟
Tian Pan
Software Engineer

当团队部署 AI 安全过滤器时,对话几乎总是集中在它拦截了什么。它是否拦截了越狱攻击?它是否标记了仇恨言论?它能检测提示词注入吗?对于召回率(Recall)来说,这些都是正确的问题。但它们几乎从未与另一个同样重要的问题挂钩:它错误地拦截了哪些不该拦截的内容?

答案通常是:很多。由于大多数团队在发布时都使用供应商的默认阈值,并且从未在生产环境中对误报(False Positives)进行监测,他们直到用户开始抱怨时才会发现——或者直到用户停止抱怨,因为他们已经停止使用该产品了。

精确率与召回率的权衡(Precision-Recall Tradeoff)是机器学习中最古老的概念之一。每一个构建过垃圾邮件过滤器或欺诈检测器的工程师都曾与之搏斗。但当同样的权衡出现在 LLM 安全层中时,团队经常将其视为一个已解决的问题——一次配置,从未监控。这篇文章将探讨为什么这种假设会让你失去用户,以及一个校准后的替代方案是什么样的。

默认阈值不是你的阈值

内容审核和安全 API 在发布时都带有默认运行点。这些默认值是根据提供商的总体用户分布进行校准的——而那并不是你的用户分布。如果你正在构建医疗信息产品、法律研究工具、创意写作平台,或任何服务于非英语用户的内容,那么默认阈值并不是为你调整的。

实际后果体现在数据中。一项针对超过 80,000 条安全提示词的大规模基准研究发现,不同模型对合法请求的拒绝率差异巨大:一个模型拒绝了 99.8% 的“硬安全”(Hard Safe)提示词(看起来有风险但实际上并无风险的边缘案例),而另一个模型仅拒绝了 6.7%。在该研究中,模型的安全性和过度拒绝率之间的斯皮尔曼相关系数(Spearman Correlation)为 0.89——这意味着更严格的安全性和更高的误报率几乎是完美同步移动的。至少在目前的方法下,如果不付出后者的代价,你就无法获得前者。

商用防护栏(Guardrail)API 也表现出同样的模式。一项 2025 年对六种主要防护栏产品(Azure Content Safety、Bedrock Guardrails、OpenAI Moderation API 等)的评估发现,为对抗性召回率优化的模型具有显著升高的误报率。论文的标题直接指出了这一发现:防护栏没有免费的午餐。拦截更多不良内容的模型也会拦截更多优质内容。问题从来不是这种权衡是否存在,而是你是否知道你的产品处于哪个位置。

误报的真实代价

典型的框架将误报视为一种小小的不便——用户收到一个错误,他们重新组织语言,交互继续。在小规模情况下,这是合理的。但在生产规模下,事实并非如此。

考虑一下当安全过滤器拦截了一个商业搜索查询,仅仅是因为它匹配到了有害内容中出现的词语模式时会发生什么。用户看不到透明的解释。他们看到的是拒绝。他们可能会重试一次。如果这种拦截是系统性的——如果他们的整类合法查询都触发了一个从未针对其用例校准过的规则——他们就会流失。你没有一个能捕捉到“因为 AI 太谨慎而离开”的留存指标,因为没有人会向支持部门报告这一点。

误报问题也是一个支持成本问题。那些明显到足以引起申诉的误报会产生最昂贵的支持交互:用户确信自己没有做错,他们是对的,并且他们希望有人解释系统为什么令他们失望。这些交互消耗了代理的时间,损害了信任,并以归因系统很少能关联回分类器的方式扭曲了 NPS。

安全研究中还出现了一种更令人警惕的失效模式。可以构建约 30 个字符的对抗性输入,导致安全分类器拦截随后 97% 或更多的合法用户请求。这是一种通过过滤器而非绕过过滤器进行的拒绝服务攻击(DoS)——不是通过规避安全检查,而是通过大规模触发误报。这种攻击之所以奏效,是因为安全分类器是为召回率而调整的,而不是为了对抗精确率攻击。根据召回率指标衡量“更安全”的新一代模型,可能对这种滥用更加脆弱,而不是更安全。

基准测试校准陷阱

团队对自己的安全层过于自信的一个原因是基准测试数据看起来很好。在标准评估集上获得 85% 准确率的分类器让人感觉问题已经解决。

事实并非如此。一个在已知基准分布上达到 85.3% 准确率的防护栏模型,在面对新颖的、分布外(Out-of-distribution)提示词时,准确率下降到了 33.8%——差距高达 57 个百分点。基准测试衡量的是模型在训练和评估期间见过的提示词类型上的表现。真实的生产流量是不同的。用户的措辞各不相同。领域在迁移。新的俚语和绕圈子的表达每周都在出现。

静态基准测试会过时。针对固定测试集调整的安全分类器会对该分布产生过拟合(Overfit)。它在基准测试上的召回率数字将保持高位,而其在现实世界中的表现则会在两个方向上产生漂移:漏掉新的滥用模式,并拦截新的合法使用模式。基准测试分数变成了衡量你擅长基准测试的程度,而不是你擅长这项工作的程度。

这就是为什么分段衡量比聚合准确率更重要的原因。一个在宏观层面看起来可以接受的分类器,可能会针对特定的用户群体、语言或查询类型产生系统性的校准偏差——而聚合数据掩盖了这一点。

阈值校准是一项产品决策

安全分类器的运行阈值并非一个设置后即可高枕无忧的技术参数。它是一项产品决策,体现了你的组织对误报 (false positives) 和漏报 (false negatives) 相对成本的判断。这种判断应该是明确的、有文档记录的,并随着你的产品和用户群体的演变而不断重新评估。

校准的机制已广为人知,以下几种方法在实践中非常有效:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates