大规模 LLM 内容审核:为什么它不仅仅是另一个分类器
大多数团队构建内容审核的方式都是错误的:他们将单个 LLM 或微调后的分类器连接到每一条用户生成内容,眼睁睁地看着延迟飙升至平台可接受的阈值之上,然后手忙脚乱地添加缓存。问题不在于缓存——而在于架构。生产规模的内容审核需要的是级联(cascade)系统,而不是单一系统,而这些阶段之间的边界决策才是大多数生产事故的根源。
这里有一个具体的数据,它将改变你对这一问题的看法:在生产级联系统中,将 97.5% 的安全内容通过轻量级检索步骤进行路由,同时仅针对风险最高的 2.5% 样本调用前沿 LLM,可以将推理成本降低到朴素全 LLM 部署的 1.5% 左右,同时还能将 F1 分数提高 66.5 点。这不仅仅是一个边际优化,而是一个架构上的必然选择。
瀑布流架构
让大多数团队陷入困境的思维模型是将审核视为单一的决策门槛。在实践中,生产环境的内容审核系统像瀑布流一样运行:每一层处理它可以廉价且准确处理的案例,只将无法处理的部分逐级上报。
第一层:关键词和黑名单(10 毫秒以下)。 第一阶段最不起眼,但承担的工作量最大。正则表达式模式、精确匹配哈希数据库(用于图片的感知哈希,用于已知恶意文件的加密哈希)以及关键词黑名单处理了显而易见的内容:已知的垃圾邮件模板、之前被标记的材料、禁用的 URL。这些在内容到达应用层之前就在边缘基础设施上运行。虽然对于新攻击的漏报率很高,但对于精确匹配的误报率几乎为零,并且它们在不消耗任何 GPU 周期的情况下消除了绝大多数明确的违规行为。
第二层:轻量级机器学习分类器(100 毫秒以下)。 参数规模在 10 亿至 150 亿(1B–15B)之间的微调 Transformer 模型处理下一轮筛选。这些模型是针对特定类别的:在对话数据上训练的仇恨言论分类器,其表现优于应用于所有内容的单一通用毒性模型。针对特定社区微调的模型在目标领域的准确率和召回率上比零样本的前沿 LLM 高出 12–26 点,而延迟仅为后者的一小部分。这里的关键权衡是阈值校准——较低的分数阈值会将更多流量发送到昂贵的下一层;较高的阈值则会增加漏报。
第三层:LLM 判定(1–3 秒)。 最模糊的情况——即得分接近分类器决策边界的内容,或者需要真正上下文推理的类别——将上报给前沿 LLM。在这里,“策略即提示”(policy-as-prompt)的方法非常有效:将完整的相关社区标准或政策条款与内容一起注入,并要求模型做出判定。这是在审核中利用 LLM 推理能力的正确方式——不是作为入口,而是作为处理真正复杂案例的最后一道自动化防线。
第四层:人工上报。 后果最严重的决策和置信度较低的 LLM 输出将路由给人工审核员。这并不是技术失败时的补救措施,而是一种深思熟虑的架构选择。某些决策需要领域专业知识、法律判断或文化背景,目前没有任何模型能够可靠地处理这些。高技能的评审人员(律师、地区文化专家)处理尾部案例;标准审核员处理大批量任务。
各层之间的路由阈值是你将要做出的最重要的工程决策。如果搞错了,你要么是在为显而易见的垃圾内容支付 LLM 推理费用,要么是把边缘性的骚扰内容发送给一个从未针对此类内容进行过训练的分类器。
对抗性内容如何演进
大多数团队低估的第二点是:恶意行为者会不断进化。内容审核不是一个静态的分类问题,而是一个对抗博弈,攻击者会观察你系统的弱点,从而导致你的训练分布发生漂移。
针对基于分类器的审核系统的攻击面已有详尽记录:
- Unicode 混淆:零宽字符、同形异义字以及组合 Unicode 标记生成的文本,在人眼看来完全一致,但会破坏正则表达式并使分词器(tokenizer)失效。在 2024-2025 年的研究中,表情符号走私(Emoji smuggling)技术在针对几种商业护栏产品时达到了 100% 的规避成功率。
- Encoding 攻击:对有害内容进行 Base64、十六进制(hex)和 ROT13 编码,在针对基于关键词的系统时可达到 76% 以上的规避率。修复方法是机械性的——在过滤前进行解码——但你必须知道要去这样做,并且在运行任何分类器 之前需要进行规范化。
- 多轮越狱:单轮防御在很大程度上会被通过逐步改变上下文的对话攻击击败。渐进式攻击(Crescendo-style attacks)通过逐步升级直至达到有害目标,其针对仅为单轮内容构建的防御系统的成功率超过 90%。
- 语义改写:在保留语义的同时重新表述有害内容,以避开触发性词汇。这可以挫败关键词和 n-gram 方法,并使在窄词汇分布上训练的微调分类器性能下降。
对系统设计的实际意义是:深度防御不是可选项。单一分类器就是单一的规避目标。生产系统需要针对不同数据分布训练并使用不同架构的冗余分类器,这样,愚弄分类器 A 的对抗变体同时愚弄分类器 B 的概率就会降低。
你还需要监控新的攻击向量。构建一个样本流水线,持续将边缘内容输入分类器,并跟踪置信度分数随时间的变化分布。近阈值分数分布的突然变化通常是新的规避技术正在传播的最早信号,甚至早于它出现在你的违规指标中。
误报阈值问题
决定你的审核系统是否会损害平台的关键数字是:当误报率超过大约 2–3% 时(取决于内容类别和用户群体),用户就会开始自我审查、进行大量申诉,或者转向监管较少的替代平台。
这个阈值比大多数团队预期的要低,并且具有不对称效应。对于普通用户,误报很烦人。但对于创作者和核心用户——即在你的平台上生成最有价值内容的人——误报对他们的工作构成了生存威胁。当一位创作者的视频被误删时,损失不仅仅是那次删除,而是对未来内容的寒蝉效应。
Meta 2025 年的审核调整明确说明了这种权衡:将触发删除的违规阈值从视频内容的 25% 提高到 50%,是一个蓄意的决定,即接受更多的漏报以减少误报。这就是运营现实——你无法同时优化两者,正确的选择取决于你的平台更不能容忍哪种失败模式。
实际的衡量方法是:按政策类别追踪误报率,而不是看总数。聚合数据掩盖了分类器校准极差的类别。1% 的总误报率,如果是由 0.1% 的垃圾信息误报和 8% 的政治言论误报组成的,那么这与 1% 均匀分布的误报是完全不同的问题。
申诉工作流作为可靠性信号
大多数团队将申诉工作流视为客户支持问题。实际上,它是你最有价值的质量信号。
申诉撤销率——即人工审核员撤销的申诉决定所占的百分比——直接告诉你分类器在何处校准失当。某一特定类别的高撤销率意味着你对该类别的阈值过于激进。系统性地追踪申诉和撤销,并按政策条款和内容类型进行分解,能为你提供任何评估集都无法复制的反馈闭环,因为它直接源自实际到达你平台的内容分布。
设计良好的申诉工作流具有以下特征:
- 透明的拒绝理由。 用户应该看到触发删除的具体政策条款以及驱动该决定的置信度水平。含义模糊的“你的内容违反了我们的指南”消息会导致申诉激增,耗费审核员的时间处理那些用户甚至不理解自己为什么要申诉的案例。
- 不同的审核路由。 申诉绝不应发回给做出初始决策的同一个系统或同一个人。人工审核员的确认偏误以及确定性分类器的幂等行为意味着,路由给同一审核员会导致申诉系统仅作为一种延迟机制运行。
- 响应 SLAs。 目标为 24–48 小时。大多数平台都达不到这一点,而这种延误会直接增加用户的挫败感和流失。
- 聚合趋势监测。 如果某一特定内容类别的申诉量在一周内激增,这是分类器回归或出现大规模触发误报的新攻击向量的领先指标。
这里的调研情况并不乐观:对主要消费级 AI 平台的申诉流程研究发现,从用户的角度来看,解释往往是“荒谬的”,用户行为与违反的政策之间没有明确的对应关系。做好这一点不仅是为了良好的 UX——这也是你建立反馈闭环、随着时间的推移真正提高审核质量的方式。
针对特定类别的架构,而非单一模型
内容审核系统设计中最持久的错误之一,是认为在广泛的毒性分类法上训练的单一通用模型可以很好地处理所有伤害类别。它做不到,而且失败模式因类别而异。
需要根本性不同方法的类别:
- NSFW/成人内容:主要是视觉问题。图像分类器(微调后的 CLIP 变体或基于 ResNet 的模型)在媒体处理方面的表现明显优于纯文本模型。阈值校准在这里至关重要,因为“成人内容”高度依赖于上下文。
- 仇恨言论和骚扰:对文化和语言背景最敏感的类别。在英 语数据上训练的仇恨言论分类器会漏掉土耳其语、印地语或葡萄牙语中的等效表达——这不是因为翻译问题,而是因为针对群体攻击的文化框架和污蔑词汇不同。来自 xlm-roberta 的多语言迁移有所帮助,但在地区方言上表现会下降。
- 垃圾信息和操纵:基于模式。行为信号(发布频率、账号时长、链接图谱模式)比内容信号更能预测协同性造假行为。不要在这里单独使用内容分类器。
- 自残内容:后果最严重的漏报类别。这些分类器应具有比任何其他类别更低的删除阈值和更高的人工介入率,因为漏报的代价是不对称且严重的。
- 虚假信息:无法仅通过文本分类解决。准确的虚假信息检测需要现实世界的知识,这需要检索增强(RAG)方法或专门的事实核查流程。检测虚假信息的纯文本分类器在很大程度上是在检测风格特征(“听起来像虚假信息”),而不是事实准确性。
构建为每个类别调整阈值的特定类别流水线比单一模型具有更多的运营开销,但这是唯一能在整个伤害分类体系中表现合格的架构。
生产环境中的优秀标准
大规模运行生产级内容审核系统意味着你需要回答一系列特定的运营问题,而大多数团队在发生第一次事故之前往往没有深思熟虑过这些问题:
- 每一层的延迟预算是多少? 实时聊天需要低于 100ms;Feed 流平台可以容忍 1–3 秒。这个答案决定了每一级级联(Cascade Tier)中可以放 置什么。
- 每个类别的误报(False-positive)预算是多少? 垃圾邮件、政治内容与创作者视频的指标各不相同。应在调整阈值之前明确设定这些指标,而不是之后。
- 你如何检测新的规避手段(Evasion Vectors)? 你需要一个监控流水线,在新的攻击模式出现在投诉队列之前就将其识别出来。
- 什么情况会触发人工升级,速度有多快? 对于高病毒式传播的内容,从标记到人工审核的延迟至关重要,因为延迟决策会放大传播范围。
- 目前的申诉撤销率是多少? 如果你不了解这个数字,你的审核系统就缺乏反馈闭环。
内容审核是“演示效果良好”与“生产环境可行”之间差异最大的领域之一。演示通常涉及清晰的输入、明显的违规行为和有耐心的用户。而生产环境则涉及对抗性输入、边界案例、双向的高风险错误,以及生计取决于你系统判断是否准确的用户。级联架构、按类别校准以及申诉反馈闭环是弥补这一差距的关键。
- https://arxiv.org/abs/2410.10347
- https://arxiv.org/abs/2504.11168
- https://arxiv.org/html/2502.18695v1
- https://arxiv.org/html/2502.09175v1
- https://platform.openai.com/docs/guides/moderation
- https://www.digitalmethods.net/pub/Dmi/ContentModerationStudy/Content_Moderation_UvA_23June_2025_opti.pdf
- https://www.helpnetsecurity.com/2026/04/07/google-llm-content-moderation/
- https://protectai.com/blog/specialized-models-beat-single-llms-for-ai-security
- https://getstream.io/blog/nlp-vs-llm-moderation/
- https://arxiv.org/pdf/2509.25539
