MMLU-Pro：更强大、更具挑战性的多任务语言理解基准

引言：人工智能理解能力的新标杆

近年来，大型语言模型（LLM）的进步彻底改变了自然语言处理（NLP）领域。GPT-4、Gemini 和 Claude 等最先进的模型正在不断突破人工智能在语言理解和推理方面的能力边界。为了实现专家级人工智能的目标，即在各种任务中达到或超过 10% 的技能娴熟的成年人的表现，我们需要不断评估这些模型在广泛任务上的表现。

目前，有多种流行的基准测试用于衡量这种通用智能，例如侧重于考试题的 AGIEval、侧重于科学问题的 ARC、侧重于解决困难的合成任务的 BBH 以及涵盖 STEM、人文、社会科学等 57 个科目的考试题的 MMLU。

MMLU 的局限性：从饱和到不稳定

MMLU 因其广泛的覆盖面和高质量而成为评估 LLM 的事实标准。然而，当前 LLM 的快速发展已迅速导致 MMLU 的性能饱和。自 2023 年 3 月 GPT-4 达到 86.4% 的准确率以来，该基准测试一直没有取得任何重大进展。大多数最新的前沿模型，如 GPT-4-Turbo、Gemini-1.5-Pro、Claude 和 LLaMA-3-400B. ��其准确率都稳定在 86% 到 87% 之间。最近发布的 GPT-4o 在 MATH 和 Chatbot Arena 上取得了显著的性能提升（10% 以上），但在 MMLU 上仅获得了 1% 的提升，达到 87.4%。✅

除了饱和问题外，MMLU 的性能还因其对提示和评分函数的高度敏感而闻名，这导致排行榜上的排名发生重大变化。我们推测，这些问题是由以下原因造成的：

选项数量少：MMLU 中的问题只有三个干扰选项，这使得 LLM 可以在没有真正理解问题的情况下利用捷径得出答案，从而导致对 LLM 真实性能的高估和一定程度的不稳定性。
推理难度低：MMLU 中的问题大多是知识驱动的，不需要太多的推理，尤其是在 STEM 科目中，这降低了其难度。事实上，大多数模型在没有思维链的情况下，通过“直接”答案预测就能获得更好的性能。
数据噪声：MMLU 中有一部分问题是无法回答的，或者标注有误，这导致了性能上限较低，而前沿模型已经达到了这个上限。

MMLU-Pro：更具挑战性、更具辨别力、更可靠

为了解决这些问题，我们引入了 MMLU-Pro：一个全面的基准测试，旨在评估高级语言模型在多学科语言理解和推理方面的能力。MMLU-Pro 涵盖了 14 个不同的领域，包括数学、物理、化学、法律、工程、心理学和健康，包含超过 12,000 个问题。

MMLU-Pro 与 MMLU 的区别在于：

选项数量增加：MMLU-Pro 有十个选项，比 MMLU 多 3 倍，这大大降低了随机猜对答案的概率，从而提高了基准测试的难度和鲁棒性。
推理难度提高：MMLU-Pro 增加了具有挑战性的大学水平考试题的比例，这些问题要求 LLM 在不同领域进行深思熟虑的推理才能得出最终答案。
数据质量更高：我们整合了两轮专家评审，以减少数据集的噪声。第一轮是基于专家验证，第二轮是利用最先进的 LLM 来识别潜在的错误，并聘请标注员进行更有针对性的验证。

实验结果：CoT 的必要性和 MMLU-Pro 的有效性

我们在 MMLU-Pro 上评估了 50 多个 LLM，包括开源和闭源模型，如 GPT-4o、Claude-3-Opus、Gemini、LLaMA-3 和 Phi-3。我们的主要发现总结如下：

MMLU-Pro 极具挑战性：领先的模型 GPT-4o 仅获得了 72.6% 的准确率，GPT-4-Turbo 达到 63.7%，这表明还有很大的改进空间。
MMLU-Pro 更具辨别力：例如，GPT-4o 和 GPT-4-Turbo 在 MMLU 上的差距为 1%，而在 MMLU-Pro 上则为 9%。这种辨别性使得 MMLU-Pro 成为一个更合适的基准测试。
开源模型的进步：Llama-3-70B-Instruct 和 DeepSeek-V2-Chat 等先进的开源模型，虽然在性能上还无法与 GPT-4o 和 Claude-3-Opus 等领先的闭源模型相媲美，但已经接近 Claude-3-Sonnet 的水平。
CoT 的必要性：MMLU-Pro 需要思维链（CoT）才能取得良好的效果。例如，CoT 可以将 GPT-4o 的性能提高 19%。相比之下，CoT 实际上会损害模型在 MMLU 上的表现。这反映了在 MMLU-Pro 上进行深思熟虑的推理的必要性，而这在知识驱动的 MMLU 问题中是不需要的。
错误分析：我们对当前性能最佳的模型 GPT-4o 的 120 个错误案例进行了分析，发现 39% 的错误是由于推理过程中的缺陷，35% 是由于缺乏特定领域的专业知识，另外 12% 是由于计算错误。这些结果突出了 MMLU-Pro 基准测试的难度，并指出了需要进一步研究和模型改进的领域。

结论：迈向更强大的 LLM 评估

MMLU-Pro 是一个更强大、更具挑战性的多任务语言理解基准测试，它解决了 MMLU 的局限性，并为评估 LLM 的推理和知识能力设定了更高的标准。我们的实验结果表明，MMLU-Pro 在区分模型、鼓励 CoT 推理和推动 LLM 研究方面非常有效。

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一个名为MMLU-Pro的新型多任务语言理解基准测试。它旨在解决现有大规模语言模型（LLMs）在现有基准测试（如MMLU）上性能趋于饱和的问题，这些现有基准测试无法有效区分模型之间的细微差别。具体来说，MMLU-Pro试图解决以下几个问题：

提高难度：通过增加更多挑战性的、侧重于推理的问题，并扩大选项集从四个增加到十个，MMLU-Pro旨在提高基准测试的难度。
增强鲁棒性：通过减少由于提示（prompt）变化导致的模型分数波动，MMLU-Pro旨在提供更稳定的评估。
改善区分度：MMLU-Pro通过设计更复杂的推理问题，使得模型之间的性能差异更加明显，从而更好地区分不同模型的能力。
鼓励推理：与MMLU相比，MMLU-Pro要求模型使用更加细致的推理过程（Chain of Thought, CoT）来解决问题，而不是简单地依赖于知识驱动的直接回答。
减少数据噪声：通过两轮专家审查，MMLU-Pro旨在减少数据集中的噪声，提高问题的质量。

总的来说，MMLU-Pro旨在成为一个更具挑战性、更稳定的基准测试，以更准确地跟踪和评估语言模型在多任务语言理解方面的进步。

Q: 有哪些相关研究？

A: 论文中提到了多项与大型语言模型（LLMs）及其评估基准相关的研究。以下是一些主要的相关研究领域和具体工作：

大型语言模型（LLMs）的进步：
- GPT-3 [7]：展示了强大的少样本预测能力。
- InstructGPT [28]：通过人类反馈强化学习提高了遵循用户指令的能力。
- 后续模型如GPT-4o, GPT-4, Claude-3, Gemini, Llama-3等，在多领域复杂推理方面取得了显著进步。
LLMs评估基准：
- GLUE [37] 和 SuperGLUE [38]：推动了语言理解任务的发展。
- MMLU [18]：评估模型在57个不同科目的考试问题上的表现。
- HELM [22]、BigBench [32]、HellaSwag [45] 和 AI2 Reasoning Challenge (ARC) [12]：评估了语言生成、知识理解和复杂推理等能力。
性能比较和排行榜：
- OpenLLM Leaderboard [27] 和 OpenCompass [14]：为不同LLMs提供了性能比较的平台。
模型的健壮性：
- 研究表明，现有基准测试中的性能对提示的微小变化非常敏感 [25, 31]。
特定任务和领域：
- MATH [19]：专注于评估模型解决数学问题的能力。
- AGIEval [48]：关注SAT、Gaokao、GRE等一般考试问题。
错误分析和模型改进：
- 对GPT-4o等模型的错误分析，揭示了推理错误、特定领域知识缺失、计算错误等问题。
其他相关技术报告和模型：
- 如Phi-3 [1], Llama-3 [24, 35], Claude [6, 13], GPT-4 [2], Qwen [5], Mistral [20], DeepSeek [15] 等。

这些研究为MMLU-Pro基准测试的设计提供了背景和动机，同时也展示了在评估和推动LLMs发展方面的现有工作。MMLU-Pro旨在建立在这些研究的基础上，提供一个更加健壮和具有挑战性的评估平台。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决现有基准测试中的性能饱和和区分度不足的问题：

扩展问题选项：MMLU-Pro将问题的答案选项从4个增加到10个，这样增加了随机猜测正确答案的难度，从而提高了基准测试的挑战性。
增加挑战性问题：通过整合更多需要深入推理的问题，特别是那些需要应用定理解决的问题（如TheoremQA）和高级科学问题（如SciBench），MMLU-Pro要求模型进行更加复杂的推理。
减少数据噪声：通过两轮专家审查，MMLU-Pro旨在减少数据集中的噪声。第一轮审查基于专家验证，第二轮使用最先进的LLMs来识别潜在错误，并由人工审核者进行更有针对性的验证。
增强模型评估：论文采用了5-shot Chain-of-Thought (CoT) 方法来评估模型性能，这种方法强调了推理步骤，而不仅仅是语言概率。
稳定性测试：通过测试24种不同的提示风格，MMLU-Pro展示了对提示变化的敏感性降低，从而提高了评估的稳定性。
性能比较：论文比较了MMLU和MMLU-Pro的性能，显示了MMLU-Pro在挑战性、区分度和鲁棒性方面的改进。
错误分析：通过对GPT-4o模型的120个错误案例的分析，论文揭示了模型在推理、特定领域知识和计算方面的错误，为未来的模型改进提供了方向。
评估多种模型：论文评估了50多种LLMs，包括开源和闭源模型，如GPT4o、Claude-3-Opus和Gemini等，以展示MMLU-Pro的挑战性。

通过这些方法，MMLU-Pro旨在成为一个更加区分性、鲁棒性和挑战性的基准测试，以更好地跟踪和评估语言模型在多任务语言理解方面的进步。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估和展示MMLU-Pro基准测试的有效性。以下是论文中提到的主要实验内容：

模型性能评估：评估了50多种大型语言模型（LLMs），包括开源和闭源模型，如GPT-4o、Claude-3-Opus、Gemini、LLaMA-3、Phi-3等，在MMLU-Pro上的性能。
准确性比较：比较了MMLU-Pro与原始MMLU基准测试在准确性方面的差异，显示MMLU-Pro导致准确率显著下降，从而提高了挑战性。
稳定性测试：通过24种不同的提示风格测试模型，比较了MMLU和MMLU-Pro在稳定性方面的表现，发现MMLU-Pro对提示变化的敏感性降低。
推理方法比较：比较了使用Chain of Thought (CoT)推理方法与直接回答（Direct Answering）在MMLU和MMLU-Pro上的性能差异，发现CoT在MMLU-Pro上表现更好。
错误分析：对GPT-4o模型在MMLU-Pro上的120个错误案例进行了详细分析，分类了错误原因，如推理错误、特定领域知识缺失、计算错误等。
跨领域比较：分析了模型在MMLU-Pro中不同领域（如数学、物理、工程、历史、法律、心理学等）的表现，以展示模型在不同领域的能力差异。
性能提升分析：探讨了CoT方法在MMLU-Pro上对模型性能的提升效果，并与MMLU进行了对比。
模型间差异：展示了MMLU-Pro在区分不同模型间细微差别方面的能力，如GPT-4o与GPT-4-Turbo在MMLU-Pro上的较大性能差距。

这些实验结果表明，MMLU-Pro是一个更具挑战性、更稳定的基准测试，能够有效地区分和评估语言模型在多任务语言理解方面的能力。

Q: 有什么可以进一步探索的点？

A: 尽管MMLU-Pro基准测试在提高难度、增强鲁棒性和改善区分度方面取得了显著进展，但仍有一些潜在的领域可以进一步探索和改进：

多模态能力评估：当前的MMLU-Pro主要关注文本数据。未来的工作可以扩展到多模态模型，包括图像、视频和音频，以更全面地评估语言模型的综合能力。
更广泛的领域覆盖：虽然MMLU-Pro涵盖了多个领域，但总有更多特定领域知识可以整合进来，特别是那些新兴或高度专业化的领域。
实时交互和理解：目前的基准测试主要关注静态文本。未来的研究可以探索模型在实时交互环境中的理解能力，例如对话系统或交互式问题解答。
模型的可解释性和透明度：提高模型的可解释性，让研究人员和用户更好地理解模型的决策过程，可以作为一个重要的研究方向。
模型的伦理和偏见问题：研究和解决模型可能存在的伦理问题和偏见，确保模型的公正性和可靠性。
模型的适应性和泛化能力：探索模型在面对未见过的数据或任务时的适应性和泛化能力，以及如何通过持续学习或增量学习来提高这些能力。
模型的计算效率：研究如何提高模型的计算效率，减少资源消耗，使模型更适合在资源受限的环境中使用。
模型的健壮性和安全性：进一步增强模型的健壮性，抵御对抗性攻击和误导性输入，确保模型在面对恶意使用时的安全性。
模型的创造力和创新能力：评估和提升模型在生成新颖、创造性内容方面的能力，这可能涉及艺术创作、文学创作等领域。
模型的协作和协同工作能力：研究模型如何与其他模型或人类用户有效地协作和协同工作，以解决复杂问题。
模型的长期学习能力：探索模型如何在长期时间内持续学习和适应新知识，而不是仅仅依赖于预训练阶段获得的知识。
模型在特定应用场景下的表现：针对特定的应用场景，如医疗诊断、法律咨询等，定制和优化基准测试，以更好地评估模型的实际应用价值。

这些探索点可以帮助推动语言模型的进一步发展，提高其在更广泛任务和环境中的性能和实用性。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了MMLU-Pro，一个用于评估语言模型多任务语言理解能力的增强型基准测试。以下是论文的主要内容总结：

背景：随着大型语言模型（LLMs）的发展，现有基准测试（如MMLU）已经无法有效区分模型性能，因为模型在这些基准上的表现已趋于饱和。
MMLU-Pro的提出：为了解决现有基准的局限性，作者提出了MMLU-Pro，这是一个更具挑战性、更稳定的基准测试，旨在更好地评估和推动LLMs的发展。
数据集特点：
- 包含14个不同领域的超过12,000个问题。
- 选项从4个增加到10个，减少了随机猜测正确答案的可能性。
- 增加了需要深入推理解决的大学级别考试问题。
- 通过两轮专家审查减少数据噪声。
实验结果：
- MMLU-Pro显著提高了挑战性，领先模型GPT-4o的准确率从MMLU的87.4%下降到72.6%。
- MMLU-Pro比MMLU更能区分不同模型之间的细微差别。
- 证明了使用Chain of Thought（CoT）推理方法在MMLU-Pro上的有效性，与MMLU形成鲜明对比。
稳定性和鲁棒性：MMLU-Pro显示出更好的稳定性，对提示风格变化的敏感性降低。
错误分析：通过对GPT-4o模型错误案例的分析，揭示了模型在推理、特定领域知识和计算方面的错误。
相关工作：论文讨论了LLMs的进展、评估基准的发展，以及现有基准的局限性。
MMLU-Pro基准测试的构建：详细介绍了数据集的构建过程，包括初步筛选、问题收集与整合、选项增强和专家审查。
实验设置：描述了用于评估模型性能的Few-Shot Chain-of-Thought Prompting方法和答案提取技术。
结果与分析：展示了不同模型在MMLU-Pro上的表现，并进行了详细的分析。
与MMLU的比较：从难度、推理能力和鲁棒性三个方面对MMLU和MMLU-Pro进行了比较。
局限性：讨论了MMLU-Pro的局限性，如多选格式的限制和对单模态模型的专注。
结论：MMLU-Pro是一个更具挑战性和鲁棒性的基准测试，有助于推动语言模型的进一步发展。
致谢和资金披露：感谢为该研究提供反馈和建议的个人和组织，以及开源语言模型提供者的贡献。

MMLU-Pro的开发是对现有语言模型评估基准的重要补充，为未来LLMs的研究和应用提供了新的挑战和方向。

MMLU-Pro：更强大、更具挑战性的多任务语言理解基准

评论

发表回复 取消回复

更多文章

最近浏览

发表回复取消回复