LLM 分类器的生产实践:为什么准确率是错误的指标
一个团队上线了基于 LLM 的意图分类器,评估准确率高达 94%。然而上线两周后,客服工单量上涨了 30%——并非因为模型无法分类,而是它以极高的置信度将边缘案例路由到了错误的队列。没有人为"模型判断错误却浑然不知"这种情况设置熔断机制。那个 94% 的数字从未暴露过这种风险。
这种失败模式在内容审核流水线、路由系统和实体提取器中反复出现。LLM 在留出集上得分很高,团队上线,然后生产环境中悄悄出现了问题。
问题不在于准确率是个坏指标,而在于它回答的是错误的问题。生产环境中的分类有一套不同的要求,而大多数评估流水线并不测试这些要求。
准确率忽略的四个约束
当你在生产中将 LLM 用作分类器时,你要求它做的事情与生成文本不同。你需要稳定的输入到标签映射、可预测的 延迟、可靠的置信度估计,以及在分布偏移下的稳定行为。准确率只孤立地衡量第一个约束,而忽略了其余所有约束。
校准性:如果一个模型所声称的置信度与其实际准确率相符,则该模型是经过校准的。如果模型说它有 90% 的把握,那么它应该在 90% 的情况下是正确的。对生产 LLM 分类器的研究发现,GPT-4o-mini 的错误集中在高置信度端——当模型报告置信度超过 80% 时,大约 66.7% 的误分类就会发生。对于将置信度作为决策门槛的自动路由系统来说,这是灾难性的:模型在系统最信任它的地方,反而失误最多。
分类别性能:总体准确率掩盖了类别层面的失败。在一个 95%/5% 类别分布的数据集上,一个始终预测多数类的分类器可以达到 95% 的准确率,而对少数类的召回率为 0%。实际上,少数类通常是你最关心的——罕见但有害的内容、低频但业务影响高的意图、不寻常的实体类型。分类别的 F1 分数,而非总体准确率,才能揭示模型是否真正适用于你的用例。
吞吐量和延迟:生产中的分类具有通用 LLM 基准测试无法衡量的 SLO。对话系统中的意图检测需要在 200ms 内完成。流式处理流水线中的内容审核需要每分钟处理数千个条目。LLM 推理比传统逻辑回归分类器慢几个数量级。相关问题不仅仅是"它准确吗?",而是"在这个延迟、这个吞吐量、这个成本下,它准确吗?"
分布稳定性:在一月份留出集上评估的模型,如果输入分布已经发生偏移,在六月份的流量上可能表现不同。模型提供商会推送静默更新,用户行为会改变,话题会趋于热门。某时间点上测量的准确率对于分类器在六个月后的表现毫无说明。
