跳到主要内容

2 篇博文 含有标签「ensemble」

查看所有标签

达成共识的 LLM-as-Judge 集成:只因评委都来自同一家族

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的评估流水线针对每一个模型输出运行一个由三位评审组成的集成系统。评审成员包括使用严格标准的 GPT-4、使用宽松标准的 GPT-4 以及使用思维链标准的 GPT-4。他们在 91% 的案例中达成一致。你向发布审查委员会报告了 0.83 的 Krippendorff's alpha 评审间一致性指标。这个数字落在了每个方法论教科书都视为“绿灯”的“显著一致性”区间内。在六个月的时间里,三个模型升级版本依据这一数字顺利发布。

一位外部审计员使用相同的评审标准,将其中一位评审更换为 Claude,结果在难题上的一致率降至 64%。那些证明前三次升级合理性的评估分数,结果变成了取决于你将哪个供应商家族视为“基准真相(Ground Truth)”的数字。这些升级只是针对 GPT-4 家族偏好的升级,而非针对质量的提升——因为评审本身就是受审模型的“同胞兄弟”。

多模型共识:当单个 LLM 不足以进行最终签核时

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的 AI 功能发布时准确率为 85%。领导层非常兴奋。但随后一项合规审计发现,那 15% 的错误答案集中在特定的监管解读上——而你所使用的供应商家族中的每个模型都以同样的方式犯了错。你调用了一个模型,它失败了。因为你从未将其与其他模型进行对比,你完全没有意识到这种失败是系统性的。

多模型共识架构(Multi-model consensus architecture)是解决这一问题的结构化方案。与其信任单个大语言模型(LLM),不如将请求分发给来自不同供应商家族的多个模型,汇总它们的响应,并根据一致性进行路由。不一致的模式本身就成为了系统中的一等信号,而不仅仅是一个调试产物。

这种方法的每次推理成本要高出 2 到 4 倍。对于大多数用例来说,这显然不值得。但对于特定类别的输出——法律摘要、医疗分诊路由、金融风险标记、安全评估——错误答案的代价远超额外推理的成本,以至于计算逻辑几乎立即发生反转。