数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！

ShuYini

发布于 2024-05-17 20:31:37

1230

发布于 2024-05-17 20:31:37

文章被收录于专栏：自然语言处理(NLP)论文速递自然语言处理(NLP)论文速递

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

大模型数学推理评测基本上都绕不开GSM8k测试基准，当前很多大模型在该数据集上都展现出较强的性能。然而，本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题，而不是模型真正具备推理能力。

为此，本文作者仿照GSM8K测试集创建一个新的测试基准GSM1K，实验结果发现，Mixtral、Phi-3等模型在该数据集上的准确率最高下降了13%，特别是Phi和Mistral在不同大小的模型上都出现了过拟合，Llama中规中矩，Gemini、GPT、Claude等模型几乎没有过拟合现象。由此可见，随着模型技术的不断迭代，在做LLM数学推理评测时单单依赖GSM8K，或许将不能给出客观的评价。

https://arxiv.org/pdf/2405.00332

背景介绍

提升大模型的推理能力是当前学术研究的重点，为了客观的评估当前LLM的推理能力，当前研究领域通常依赖于一些公共基准测试，例如GSM8k、MATH、MBPP、HumanEval和SWEBench等。然而，由于LLMs的训练数据基本上都是在互联网上筛选得到。这就存在一个问题：这些基准测试可能无意中包含了与测试中的问题非常相似的示例。这种“数据污染”可能导致模型的推理能力被高估，因为模型可能只是在重复它在预训练或后训练期间遇到的某个正确答案。

为了解决数据污染问题，研究人员采取了多种策略来减少数据污染的影响。这包括移除与基准测试数据高度相似的样本、使用嵌入相似性技术排除过于相似的数据，以及通过变体问题来检测模型是否偏好原始措辞。此外，功能性评估方法通过生成一次性使用的问题实例来评估模型，以降低数据污染的风险。尽管如此，功能性评估仅能覆盖问题空间的一小部分。此外，研究结果表明，即使是前沿模型，在MATH数据集上也可能存在严重的数据过拟合问题，这进一步凸显了数据污染问题的严重性。

本文作者为了能够更好的评估LLM的推理能力，创建了GSM1k测试基准，这是一个新构建的包含1250个小学水平数学问题的集合，旨在模仿GSM8k，并确保GSM1k与GSM8k具有相似的难度分布，以便进行公平比较。

GSM1k测试基准

作者精心设计了GSM1k数据集的创建过程，旨在评估大模型（LLMs）在小学数学问题上的性能，同时避免数据污染。该项目的目标是生成与8年级数学测验相仿的高质量且独一无二的问题和答案。具体过程如下：

「首先」，标注人员审查GSM8k数据集的示例问题，随后根据这些示例创建全新的问题，遵循步骤指导并避免重复使用问题设定。问题中的计算步骤需简单，以便8年级学生能够使用纸和笔完成，且只使用基本的算术运算。最终答案应为单一整数，且在问题中明确单位。其中数据集问题难易分布如下图所示：

「然后」，为确保问题质量，采取了三层审查流程：初步由信任的标注人员进行手动审查，随后由另一组标注人员独立解决问题，不一致的答案将被丢弃；最后，由Scale AI内部团队进行一般性质量审计。此外，为了匹配GSM8k的难度分布，标注人员被要求创建具有相应难度的问题，并通过程序化方法估算问题难度。

「最后」，为了确保GSM1k与GSM8k在难度和风格上的相似性，通过选择1250个问题来尽可能匹配GSM8k的答案大小分布，同时进行人类区分率测试和解决率测试。对于已知未受GSM8k数据污染的模型，也进行了解决率的比较分析。整个创建过程严格把控，以确保GSM1k作为一个公正和有效的工具来评估LLMs的数学推理能力。