跳到主要内容

基准污染:为什么那个90% MMLU分数并不意味着你想象的那样

· 阅读需 9 分钟
Tian Pan
Software Engineer

当GPT-4在MMLU上得到88%时,感觉是一个里程碑时刻。MMLU——大规模多任务语言理解基准——涵盖从小学数学到专业法律的57个学科。在如此广泛领域达到88%的准确率,看起来是真正广泛智能的有力证据。后来研究人员创建了MMLU-CF,一个无污染变体,替换掉了与已知训练语料库存在可疑相似性的问题。GPT-4o下降到73.4%——差距高达14.6个百分点。

这个差距不是小的舍入误差。它代表的是"在复杂学术问题上可靠正确"与"在见过这道题时可靠正确"之间的区别。对于基于排行榜分数做模型选择决策的团队来说,这意味着购买了一种并不真正存在的能力。

评估数据如何进入训练语料库

这个机制不是什么秘密阴谋。考虑到LLM预训练的运作方式,它是结构性的,几乎不可避免。

现代前沿模型在网络规模的数据集上训练——Common Crawl快照、GitHub、arXiv、StackExchange、Reddit帖子。MMLU、HumanEval和GSM8K等流行基准数据集在GitHub和Hugging Face上公开可用,在arXiv的学术论文中被频繁讨论,并在StackExchange答案中被引用。当你抓取整个互联网时,基准数据集也会被一并抓进来。

污染有几种形式。直接包含是最明显的:包含HumanEval问题的GitHub仓库存在于训练数据中。但也有改写污染,从基准问题衍生的合成数据集最终进入训练数据(CodeAlpaca包含约12.8%的改写HumanEval样本)。还有论坛讨论,人们在那里发布基准问题和解答。还有基于MMLU内容构建的学习指南。测试集随着时间推移在网络上扩散。

对于LLaMA 2,研究人员发现超过16%的MMLU示例被污染,其中11%"严重污染"——意味着这些示例中超过80%的token出现在预训练数据中。对于HumanEval,主要开源预训练集的污染率从8%到18%不等。

更难回答的问题是,这是否构成真正的性能虚高,还是说模型确实从那些污染样本中学到了能迁移的东西。MMLU-CF的结果直接回答了这个问题:差距是真实且显著的。

为什么标准检测方法持续失效

业界对污染担忧的第一反应是n-gram匹配:检查测试输入是否逐字出现在训练语料库中。这对直接包含有效,但对其他一切完全失败。

一个13亿参数的Llama模型生动地证明了这一点:在改写版本的测试集上训练后,它在MMLU、GSM8K和HumanEval上达到了GPT-4级别的性能。这些改写轻松通过了n-gram去污染过滤器。该模型实际上已经记住了答案分布,而没有存储字面文本。

更近期的检测方法使用语义相似度(句子-BERT嵌入)、困惑度分析(污染样本相对于未污染邻居显示出异常低的困惑度)和成员推断攻击。这些能捕获更多污染,但2025年的研究显示了一个新问题:即使在监督微调污染可检测之后,也可以通过用干净数据进行后训练来掩盖污染证据。你可以通过训练消除指纹。

这就是使基准分数对闭源模型从根本上不可靠的对抗动态:创建基准的人无法审计训练数据,而训练模型的人有强烈的动机取得好成绩。

基准到现实的性能差距

污染对真实任务重要性的最清晰证据来自代码生成基准。在HumanEval上——测试孤立、自包含问题上的函数级代码生成——前沿模型得分在84-89%范围内。在真实世界的类级代码生成基准上(要求模型理解项目上下文、类间依赖和现有模式),性能下降到25-34%。

这不是小的方法论细节问题。HumanEval被设计为易于评估:具有清晰文档字符串和单元测试的单个函数。它成功做到了易于评估,却未能预测模型是否对实际软件开发有用。

GSM8K数学推理显示了类似模式。推理时去污染技术——在评估时改写测试问题以减少模式匹配可能性——将GSM8K的准确率降低了高达22.9%,将MATH降低了19.0%。污染不只是虚高绝对数字;它还在人为缩小小型和大型模型之间的差距,让更便宜的模型在重要任务上看起来比实际更有能力。

加载中…
Let's stay in touch and Follow me for more thoughts and updates