你的 LLM 评估套件中的古德哈特定律:当优化分数破坏系统时
· 阅读需 10 分钟
Andrej Karpathy 直言不讳:AI 实验室正在"过拟合"Arena 排行榜。某头部实验室在公开发布前私下评估了 27 个模型变体,只发布了表现最佳的那个。研究人员估计,仅凭选择性提交就可以将排行榜分数人为提高多达 112%。所有人都视为基准真相的众包评估系统已经成为博弈目标——一旦成为目标,它就不再是有效的衡量标准了。
这就是古德哈特定律在发挥作用:当一个指标成为目标时,它就不再是好的指标。这一规律在经济学和政策领域已被充分理解了数十年。在 LLM 工程中,它正在实时摧毁评估套件,而构建这些套件的团队往往浑然不知。
问题并非出于恶意。大多数博弈自己评估的团队,都是在遵循普通的工程直觉——修复指标告诉你要修的问题,改善仪表板显示的内容,调整得分较低的部分。问题在于,每一个理性决策都在慢慢侵蚀信号,直到你的评估套件衡量的是你对评估套件本身的优化程度,而非系统在生产环境中的实际表现。
