JiuZhang 2.0：面向多任务数学问题求解的统一中文预训练语言模型

摘要：

尽管预训练语言模型 (PLM) 近期推动了数学推理研究的进展，但它们并非专门设计为有能力的多任务求解器，在实际应用中存在多任务部署成本高（例如，为一项任务复制一个模型）和复杂数学问题的性能较差的问题。为了解决这些问题，我们在本文中提出了 JiuZhang 2.0，这是一个专门针对多任务数学问题求解的统一中文 PLM。我们的想法是保持一个中等规模的模型，并采用“跨任务知识共享”来提高模型在多任务设置中的能力。特别地，我们构建了一个混合专家 (MoE) 架构来建模数学文本，以便捕获跨任务的通用数学知识。为了优化 MoE 架构，我们设计了多任务持续预训练和多任务微调策略，以进行多任务适配。这些训练策略能够有效地分解来自任务数据中的知识，并通过专家网络建立跨任务共享。为了进一步提高解决不同复杂任务的泛化能力，我们利用大型语言模型 (LLM) 作为互补模型，通过上下文学习，迭代地优化我们 PLM 生成的解决方案。大量的实验已经证明了我们模型的有效性。

关键词： 预训练语言模型，数学推理，多任务学习，混合专家，持续预训练，微调，大型语言模型，上下文学习

正文：

1. 介绍

数学推理是人工智能的一个重要领域，具有广泛的应用，如自然语言处理、机器翻译、信息检索等。近年来，随着预训练语言模型 (PLM) 的发展，数学推理取得了显著的进展。PLM 在大规模数学语料库上进行预训练，能够在一定程度上理解数学公式和逻辑，在各种数学相关任务上取得更好的性能。

然而，基于 PLM 的方法仍然存在两个主要局限性：任务性能有限和维护成本高。一方面，由于 PLM 的容量有限，在复杂数学问题上，其性能往往不佳。另一方面，由于 PLM 需要为每个任务单独训练，这导致了维护成本高的问题。

为了克服这些问题，大型语言模型 (LLM) 被引入解决数学问题。LLM 具有更强的数学推理能力，能够解决更复杂的数学问题。然而，LLM 在任务或领域适应性调整方面非常昂贵。

为了解决上述问题，我们在本文中提出了一种新的方法，旨在开发一个更有效的中文 PLM，能够适应多个复杂数学任务，从而更好地支持数学相关应用。该方法利用现有 LLMs 隐含的大量知识来提高 PLMs 解决复杂问题的能力。在实验中，该方法在一组数学任务上表现出色，甚至优于基于 LLM 的方法。

2. 相关工作

2.1 预训练语言模型的数学推理能力

近年来，PLM 在数学推理方面取得了很大的进步。例如，BERT 在数学推理任务上取得了很好的性能，表明 PLM 能够在一定程度上理解数学公式和逻辑。CodeX 是另一个专门针对数学推理的 PLM，在数学问题求解任务上取得了最先进的性能。

2.2 基于大型语言模型的方法

LLM 具有更强的数学推理能力，能够解决更复杂的数学问题。例如，GPT-3 能够解决高中水平的数学问题，PaLM 能够解决大学水平的数学问题。然而，LLM 在任务或领域适应性调整方面非常昂贵。

2.3 上下文学习

上下文学习可以用于解决不同任务，但仍然难以适应需要丰富领域知识的特定任务。例如，在数学问题求解任务中，上下文学习可以用于学习数学公式和逻辑，但难以学习特定领域的知识。

2.4 混合专家架构

混合专家 (MoE) 架构是一种用于处理大规模任务的模型架构。MoE 架构将模型分解成多个专家网络，每个专家网络处理任务的不同部分。这种分解可以提高模型的容量，并降低模型的训练成本。

2.5 多任务持续预训练和多任务微调策略

多任务持续预训练和多任务微调策略是用于优化 MoE 架构的多任务适应性策略。多任务持续预训练策略是在一个包含多个任务的数据集上对 MoE 架构进行预训练。多任务微调策略是在一个特定任务的数据集上对 MoE 架构进行微调。

2.6 传统 NLP 方法

传统的 NLP 方法，如语义解析器和运算符树，被用于理解数学文本中的公式和逻辑。这些方法通常依赖于特征提取和深度神经网络。