大规模 LLM 内容审核：为什么它不仅仅是另一个分类器

2026年4月12日 · 阅读需 12 分钟

Software Engineer

大多数团队构建内容审核的方式都是错误的：他们将单个 LLM 或微调后的分类器连接到每一条用户生成内容，眼睁睁地看着延迟飙升至平台可接受的阈值之上，然后手忙脚乱地添加缓存。问题不在于缓存——而在于架构。生产规模的内容审核需要的是级联（cascade）系统，而不是单一系统，而这些阶段之间的边界决策才是大多数生产事故的根源。

这里有一个具体的数据，它将改变你对这一问题的看法：在生产级联系统中，将 97.5% 的安全内容通过轻量级检索步骤进行路由，同时仅针对风险最高的 2.5% 样本调用前沿 LLM，可以将推理成本降低到朴素全 LLM 部署的 1.5% 左右，同时还能将 F1 分数提高 66.5 点。这不仅仅是一个边际优化，而是一个架构上的必然选择。

瀑布流架构

让大多数团队陷入困境的思维模型是将审核视为单一的决策门槛。在实践中，生产环境的内容审核系统像瀑布流一样运行：每一层处理它可以廉价且准确处理的案例，只将无法处理的部分逐级上报。

第一层：关键词和黑名单（10 毫秒以下）。 第一阶段最不起眼，但承担的工作量最大。正则表达式模式、精确匹配哈希数据库（用于图片的感知哈希，用于已知恶意文件的加密哈希）以及关键词黑名单处理了显而易见的内容：已知的垃圾邮件模板、之前被标记的材料、禁用的 URL。这些在内容到达应用层之前就在边缘基础设施上运行。虽然对于新攻击的漏报率很高，但对于精确匹配的误报率几乎为零，并且它们在不消耗任何 GPU 周期的情况下消除了绝大多数明确的违规行为。

第二层：轻量级机器学习分类器（100 毫秒以下）。 参数规模在 10 亿至 150 亿（1B–15B）之间的微调 Transformer 模型处理下一轮筛选。这些模型是针对特定类别的：在对话数据上训练的仇恨言论分类器，其表现优于应用于所有内容的单一通用毒性模型。针对特定社区微调的模型在目标领域的准确率和召回率上比零样本的前沿 LLM 高出 12–26 点，而延迟仅为后者的一小部分。这里的关键权衡是阈值校准——较低的分数阈值会将更多流量发送到昂贵的下一层；较高的阈值则会增加漏报。

第三层：LLM 判定（1–3 秒）。 最模糊的情况——即得分接近分类器决策边界的内容，或者需要真正上下文推理的类别——将上报给前沿 LLM。在这里，“策略即提示”（policy-as-prompt）的方法非常有效：将完整的相关社区标准或政策条款与内容一起注入，并要求模型做出判定。这是在审核中利用 LLM 推理能力的正确方式——不是作为入口，而是作为处理真正复杂案例的最后一道自动化防线。

第四层：人工上报。 后果最严重的决策和置信度较低的 LLM 输出将路由给人工审核员。这并不是技术失败时的补救措施，而是一种深思熟虑的架构选择。某些决策需要领域专业知识、法律判断或文化背景，目前没有任何模型能够可靠地处理这些。高技能的评审人员（律师、地区文化专家）处理尾部案例；标准审核员处理大批量任务。

各层之间的路由阈值是你将要做出的最重要的工程决策。如果搞错了，你要么是在为显而易见的垃圾内容支付 LLM 推理费用，要么是把边缘性的骚扰内容发送给一个从未针对此类内容进行过训练的分类器。

对抗性内容如何演进

大多数团队低估的第二点是：恶意行为者会不断进化。内容审核不是一个静态的分类问题，而是一个对抗博弈，攻击者会观察你系统的弱点，从而导致你的训练分布发生漂移。

针对基于分类器的审核系统的攻击面已有详尽记录：

Unicode 混淆：零宽字符、同形异义字以及组合 Unicode 标记生成的文本，在人眼看来完全一致，但会破坏正则表达式并使分词器（tokenizer）失效。在 2024-2025 年的研究中，表情符号走私（Emoji smuggling）技术在针对几种商业护栏产品时达到了 100% 的规避成功率。
Encoding 攻击：对有害内容进行 Base64、十六进制（hex）和 ROT13 编码，在针对基于关键词的系统时可达到 76% 以上的规避率。修复方法是机械性的——在过滤前进行解码——但你必须知道要去这样做，并且在运行任何分类器之前需要进行规范化。
多轮越狱：单轮防御在很大程度上会被通过逐步改变上下文的对话攻击击败。渐进式攻击（Crescendo-style attacks）通过逐步升级直至达到有害目标，其针对仅为单轮内容构建的防御系统的成功率超过 90%。
语义改写：在保留语义的同时重新表述有害内容，以避开触发性词汇。这可以挫败关键词和 n-gram 方法，并使在窄词汇分布上训练的微调分类器性能下降。

对系统设计的实际意义是：深度防御不是可选项。单一分类器就是单一的规避目标。生产系统需要针对不同数据分布训练并使用不同架构的冗余分类器，这样，愚弄分类器 A 的对抗变体同时愚弄分类器 B 的概率就会降低。

你还需要监控新的攻击向量。构建一个样本流水线，持续将边缘内容输入分类器，并跟踪置信度分数随时间的变化分布。近阈值分数分布的突然变化通常是新的规避技术正在传播的最早信号，甚至早于它出现在你的违规指标中。

误报阈值问题

决定你的审核系统是否会损害平台的关键数字是：当误报率超过大约 2–3% 时（取决于内容类别和用户群体），用户就会开始自我审查、进行大量申诉，或者转向监管较少的替代平台。

这个阈值比大多数团队预期的要低，并且具有不对称效应。对于普通用户，误报很烦人。但对于创作者和核心用户——即在你的平台上生成最有价值内容的人——误报对他们的工作构成了生存威胁。当一位创作者的视频被误删时，损失不仅仅是那次删除，而是对未来内容的寒蝉效应。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

大规模 LLM 内容审核：为什么它不仅仅是另一个分类器

瀑布流架构

对抗性内容如何演进

误报阈值问题

Recommended Reading

关于 Tian Pan

瀑布流架构​

对抗性内容如何演进​

误报阈值问题​

Recommended Reading

关于 Tian Pan

瀑布流架构

对抗性内容如何演进

误报阈值问题