大规模 LLM 内容审核:为什么它不仅仅是另一个分类器
大多数团队构建内容审核的方式都是错误的:他们将单个 LLM 或微调后的分类器连接到每一条用户生成内容,眼睁睁地看着延迟飙升至平台可接受的阈值之上,然后手忙脚乱地添加缓存。问题不在于缓存——而在于架构。生产规模的内容审核需要的是级联(cascade)系统,而不是单一系统,而这些阶段之间的边界决策才是大多数生产事故的根源。
这里有一个具体的数据,它将改变你对这一问题的看法:在生产级联系统中,将 97.5% 的安全内容通过轻量级检索步骤进行路由,同时仅针对风险最高的 2.5% 样本调用前沿 LLM,可以将推理成本降低到朴素全 LLM 部署的 1.5% 左右,同时还能将 F1 分数提高 66.5 点。这不仅仅是一个边际优化,而是一个架构上的必然选择。
