Zhou, Z. , Liu, S., Ning, M., Liu, W., Wang, J., Wong, D. F., … & Huang, K. (2024). Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist. arXiv preprint arXiv:2407.08733.✅
Cobbe, K. , Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., … & Sutskever, I. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.✅
Hendrycks, D. , Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2021). Measuring mathematical problem solving with the MATH dataset. arXiv preprint arXiv:2103.03874.✅
Lyu, Y. , Zhong, H., Tan, C., Zhang, W., & Ling, Z. Y. (2023). UniGeo: Unifying Geometry Symbolic Solving with Step-by-Step Instruction Following. arXiv preprint arXiv:2311.17267.✅
Wang, R. , Mao, Y., Shin, R., Shankar, V., Poesia, G., Santoro, A., … & Freeman, W. T. (2023). Large language models are human-level prompt engineers. arXiv preprint arXiv:2211.01910.✅
大型语言模型(LLM)在数学推理方面展现出惊人的能力,这一特性被视为衡量人工智能发展水平的重要指标。然而,如何全面评估LLM的数学能力,并真实反映其在实际应用场景中的表现,已成为一个亟待解决的关键问题。本文将详细介绍一种名为MATHCHECK的创新评估方法,该方法旨在对LLM的数学推理能力进行更加全面和深入的评估。
1. 背景与动机
传统的数学能力评估方法主要关注模型解决特定数学问题的能力,这种方法存在以下局限性:
基于此,研究者提出一个重要观点:如果一个模型真正理解了一个数学问题,它应该能够稳健地应对与该问题相关的各种任务。这一洞见启发了MATHCHECK评估方法的设计。
2. MATHCHECK方法概述
MATHCHECK是一种精心设计的评估清单,旨在测试模型在任务泛化和推理鲁棒性方面的表现。它包含多种数学推理任务和鲁棒性测试类型,以实现对数学推理能力和推理行为的全面评估。
2.1 任务泛化
MATHCHECK在水平方向上评估模型在四种不同数学任务中的表现:
这种多任务评估方法不仅提供了对模型能力的全面评估,也更贴近实际应用场景的需求和复杂性。
2.2 推理鲁棒性
MATHCHECK在垂直方向上通过四种问题形式来评估模型的推理鲁棒性:
通过这种多维度的鲁棒性测试,可以更全面地评估模型是否真正理解了问题的内在数学逻辑。
2.3 清单构建
MATHCHECK数据的创建是一个耗时且需要大量人力的过程。为了提高效率和质量,研究者利用大型语言模型(如GPT-4-Turbo)作为引擎来自动生成MATHCHECK数据。数据构建流程如下:
这种自动化的数据生成流程大大提高了MATHCHECK数据集的构建效率,同时保证了数据的高质量和多样性。
3. MATHCHECK数据集
基于MATHCHECK方法,研究者构建了两个benchmark数据集:
3.1 MATHCHECK-GSM
MATHCHECK-GSM是基于GSM8k数据集生成的MATHCHECK风格数据集,用于评估模型的数学文本推理能力。它包含129个MATHCHECK风格的问题组,共3,096条高质量数据。每个问题组包含一个原始问题及其三个鲁棒性变体,每个问题又对应四种不同的任务。
3.2 MATHCHECK-GEO
MATHCHECK-GEO是专门用于评估多模态几何推理能力的数据集。它基于GeoQA、UniGeo和Geometry3K等几何问题数据集生成,包含60个MATHCHECK风格的问题组,共1,440条高质量数据。值得注意的是,这是首个涵盖可答性判断、结果判断和过程判断任务的几何问题数据集。
这两个数据集都经过了严格的人工验证,以确保高质量和可靠性。研究者招募了三名经过专门培训的研究生进行数据验证,最终自动数据生成流程的平均通过率达到84.61%。
4. 实验设置与结果
4.1 实验设置
为全面评估现有LLM的数学推理能力,研究者选择了31个模型进行测试,包括20个LLM和11个MLLM(多模态大语言模型)。这些模型主要分为两类:
评估指标方面,研究者使用F1分数评估结果判断和可答性判断任务,使用准确率(Acc)评估其他两项任务。
4.2 主要结果
MATHCHECK-GSM结果
MATHCHECK-GEO结果
5. 深入分析
5.1 MATHCHECK与传统基准的比较
研究者进行了对比实验,发现相比传统的仅关注问题求解的基准,MATHCHECK评估结果与模型的真实数学能力更为一致,并且能更线性地表示数学智能。这证明了MATHCHECK设计的合理性和有效性。
5.2 模型行为分析
通过MATHCHECK,研究者能够对模型进行详细的行为分析:
6. 结论与展望
MATHCHECK作为一种新型的数学推理能力评估方法,为全面评估大型语言模型的数学能力提供了重要工具。通过任务泛化和推理鲁棒性的多维度测试,MATHCHECK能够更准确地反映模型的真实数学推理水平,并支持深入的行为分析。
未来研究方向可能包括:
总之,MATHCHECK为评估和理解大型语言模型的数学推理能力提供了一个强大的框架,有望推动人工智能在数学推理领域的进一步发展。
参考文献