借一步网
作者:
在
引言:人工智能理解能力的新标杆
近年来,大型语言模型(LLM)的进步彻底改变了自然语言处理(NLP)领域。GPT-4、Gemini 和 Claude 等最先进的模型正在不断突破人工智能在语言理解和推理方面的能力边界。为了实现专家级人工智能的目标,即在各种任务中达到或超过 10% 的技能娴熟的成年人的表现,我们需要不断评估这些模型在广泛任务上的表现。
目前,有多种流行的基准测试用于衡量这种通用智能,例如侧重于考试题的 AGIEval、侧重于科学问题的 ARC、侧重于解决困难的合成任务的 BBH 以及涵盖 STEM、人文、社会科学等 57 个科目的考试题的 MMLU。
MMLU 的局限性:从饱和到不稳定
MMLU 因其广泛的覆盖面和高质量而成为评估 LLM 的事实标准。然而,当前 LLM 的快速发展已迅速导致 MMLU 的性能饱和。自 2023 年 3 月 GPT-4 达到 86.4% 的准确率以来,该基准测试一直没有取得任何重大进展。大多数最新的前沿模型,如 GPT-4-Turbo、Gemini-1.5-Pro、Claude 和 LLaMA-3-400B. 其准确率都稳定在 86% 到 87% 之间。最近发布的 GPT-4o 在 MATH 和 Chatbot Arena 上取得了显著的性能提升(10% 以上),但在 MMLU 上仅获得了 1% 的提升,达到 87.4%。✅
除了饱和问题外,MMLU 的性能还因其对提示和评分函数的高度敏感而闻名,这导致排行榜上的排名发生重大变化。我们推测,这些问题是由以下原因造成的:
MMLU-Pro:更具挑战性、更具辨别力、更可靠
为了解决这些问题,我们引入了 MMLU-Pro:一个全面的基准测试,旨在评估高级语言模型在多学科语言理解和推理方面的能力。MMLU-Pro 涵盖了 14 个不同的领域,包括数学、物理、化学、法律、工程、心理学和健康,包含超过 12,000 个问题。
MMLU-Pro 与 MMLU 的区别在于:
实验结果:CoT 的必要性和 MMLU-Pro 的有效性
我们在 MMLU-Pro 上评估了 50 多个 LLM,包括开源和闭源模型,如 GPT-4o、Claude-3-Opus、Gemini、LLaMA-3 和 Phi-3。我们的主要发现总结如下:
结论:迈向更强大的 LLM 评估
MMLU-Pro 是一个更强大、更具挑战性的多任务语言理解基准测试,它解决了 MMLU 的局限性,并为评估 LLM 的推理和知识能力设定了更高的标准。我们的实验结果表明,MMLU-Pro 在区分模型、鼓励 CoT 推理和推动 LLM 研究方面非常有效。
要发表评论,您必须先登录。
引言:人工智能理解能力的新标杆
近年来,大型语言模型(LLM)的进步彻底改变了自然语言处理(NLP)领域。GPT-4、Gemini 和 Claude 等最先进的模型正在不断突破人工智能在语言理解和推理方面的能力边界。为了实现专家级人工智能的目标,即在各种任务中达到或超过 10% 的技能娴熟的成年人的表现,我们需要不断评估这些模型在广泛任务上的表现。
目前,有多种流行的基准测试用于衡量这种通用智能,例如侧重于考试题的 AGIEval、侧重于科学问题的 ARC、侧重于解决困难的合成任务的 BBH 以及涵盖 STEM、人文、社会科学等 57 个科目的考试题的 MMLU。
MMLU 的局限性:从饱和到不稳定
MMLU 因其广泛的覆盖面和高质量而成为评估 LLM 的事实标准。然而,当前 LLM 的快速发展已迅速导致 MMLU 的性能饱和。自 2023 年 3 月 GPT-4 达到 86.4% 的准确率以来,该基准测试一直没有取得任何重大进展。大多数最新的前沿模型,如 GPT-4-Turbo、Gemini-1.5-Pro、Claude 和 LLaMA-3-400B. 其准确率都稳定在 86% 到 87% 之间。最近发布的 GPT-4o 在 MATH 和 Chatbot Arena 上取得了显著的性能提升(10% 以上),但在 MMLU 上仅获得了 1% 的提升,达到 87.4%。✅
除了饱和问题外,MMLU 的性能还因其对提示和评分函数的高度敏感而闻名,这导致排行榜上的排名发生重大变化。我们推测,这些问题是由以下原因造成的:
MMLU-Pro:更具挑战性、更具辨别力、更可靠
为了解决这些问题,我们引入了 MMLU-Pro:一个全面的基准测试,旨在评估高级语言模型在多学科语言理解和推理方面的能力。MMLU-Pro 涵盖了 14 个不同的领域,包括数学、物理、化学、法律、工程、心理学和健康,包含超过 12,000 个问题。
MMLU-Pro 与 MMLU 的区别在于:
实验结果:CoT 的必要性和 MMLU-Pro 的有效性
我们在 MMLU-Pro 上评估了 50 多个 LLM,包括开源和闭源模型,如 GPT-4o、Claude-3-Opus、Gemini、LLaMA-3 和 Phi-3。我们的主要发现总结如下:
结论:迈向更强大的 LLM 评估
MMLU-Pro 是一个更强大、更具挑战性的多任务语言理解基准测试,它解决了 MMLU 的局限性,并为评估 LLM 的推理和知识能力设定了更高的标准。我们的实验结果表明,MMLU-Pro 在区分模型、鼓励 CoT 推理和推动 LLM 研究方面非常有效。