3 篇博文含有标签「content-moderation」

生产环境中的扩散模型：演示之后无人讨论的工程栈

2026年5月5日 · 阅读需 13 分钟

Software Engineer

你的图像生成功能刚刚走红。每天有 100,000 个请求涌入。API 提供商的速率限制在技术上可以应对。但 p95 延迟爬升到了 12 秒。你的 NSFW 分类器正在误报合法的医学插图。合规性审计显示，加州的《人工智能透明度法案》（AI Transparency Act）要求自 2024 年 9 月起添加水印。支持团队收到了 50 个来自内容被静默拦截的用户的待处理工单。当你意识到需要一套真正的生产级技术栈时，你已经在危机模式中虚耗了两周。

这就是“直接调用 API”失效的时刻——不是因为 API 本身不好，而是因为演示的成功暴露了你对推理延迟、内容策略、审核公平性和监管合规性所做出的每一项假设。教程中从未展示过的工程工作就在这里。

AI 内容过滤器的双边成本：过度拒绝同样是业务问题

2026年5月5日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数 AI 内容审核系统都围绕一个核心问题构建：有害内容是否被放行？漏报——那些溜过去的有害内容——会以社交媒体截图、事故复盘和监管问询的形式出现。误报——那些被拦截的合法内容——则悄无声息地消失，转化为用户挫败感、放弃的会话和流失的账户。这种可见性上的不对称造成了系统性的错误校准：团队将过滤器调得过于激进，然后困惑于为何专业用户觉得产品"完全没法用"。

工程层面的现实是：每一次阈值决策都会产生两种错误率，而非一种。只针对最容易度量的那种进行优化，最终得到的过滤器在演示时表现出色，却在规模化后造成真实的业务损失。

隐藏在你的 AI 安全过滤器中的精确率-召回率权衡

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

当团队部署 AI 安全过滤器时，对话几乎总是集中在它拦截了什么。它是否拦截了越狱攻击？它是否标记了仇恨言论？它能检测提示词注入吗？对于召回率（Recall）来说，这些都是正确的问题。但它们几乎从未与另一个同样重要的问题挂钩：它错误地拦截了哪些不该拦截的内容？

答案通常是：很多。由于大多数团队在发布时都使用供应商的默认阈值，并且从未在生产环境中对误报（False Positives）进行监测，他们直到用户开始抱怨时才会发现——或者直到用户停止抱怨，因为他们已经停止使用该产品了。

关于 Tian Pan