LLM 作为验证器的反模式:为什么你的 AI 质量门禁存在盲点
· 阅读需 10 分钟
你的 AI 功能上线时带有一个质量门禁:每个回复都会经过一个 GPT-4 提示词,根据帮助性、准确性和语气进行评分。绿色分值不会触发报警。仪表盘显示通过率为 97%。与此同时,你的支持工单翻了一倍。
问题出在结构上。你使用了与生成输出相同类型的系统来验证这些输出。当生成器产生一个听起来很合理的虚假事实(幻觉)时,基于相同互联网文本分布训练的评判模型会认为这个幻觉是可信的并予以通过。两个模型共享相同的盲点。你的质量门禁衡量的是置信度,而非正确性。
这就是 LLM 作为验证者(LLM-as-validator)反模式:将 LLM 部署为另一个 LLM 输出的主要质量门禁,而缺乏确定性检查、统计测试或人工审查的补充层。这种做法很常见,构建容易,但具有系统性的误导性。
