YAYI 2: Multilingual Open-Source Large Language Models

Summary: As the latest advancements in natural language processing, large language models (LLMs) have achieved human-level language understanding and generation abilities in many real-world tasks, and even have been regarded as a potential path to the artificial general intelligence. To better facilitate research on LLMs, many open-source LLMs, such as Llama 2 and Falcon, have recently been proposed and gained comparable performances to proprietary models. However, these models are primarily designed for English scenarios and exhibit poor performances in Chinese contexts. In this technical report, we propose YAYI 2, including both base and chat models, with 30 billion parameters. YAYI 2 is pre-trained from scratch on a multilingual corpus which contains 2.65 trillion tokens filtered by our pre-training data processing pipeline. The base model is aligned with human values through supervised fine-tuning with millions of instructions and reinforcement learning from human feedback. Extensive experiments on multiple benchmarks, such as MMLU and CMMLU, consistently demonstrate that the proposed YAYI 2 outperforms other similar sized open-source models.

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种名为 YAYI 2 的多语言大型语言模型（LLM），旨在解决现有开源 LLM 在中文环境下表现不佳的问题。YAYI 2 包括基础模型和聊天模型，均具有 300 亿参数。该模型在包含 2.65 万亿个标记的多语言语料库上从头开始预训练，并通过监督微调和人类反馈强化学习与人类价值观对齐。论文通过在多个基准测试上的广泛实验表明，YAYI 2 在知识理解、数学推理和编程等多个方面的表现优于其他相似规模的开源模型。

Q: 有哪些相关研究？

A: 这篇论文中提到的相关研究包括：1. Llama 2 和 Falcon：这两个模型是最近提出的开源 LLM，性能可与专有模型相媲美，但主要针对英语场景。2. BLOOM：这是第一个拥有 1750 亿参数的多语言 LLM，基于 ROOTS 语料库训练。3. Chat-GLM、Baichuan 2 和 Qwen：这些是基于中文的 LLM，旨在解决开源模型在中文相关场景中的局限性。4. Chat-GPT 和 Claude：这些是封闭源代码的代表性 LLM 产品，主要作为智能个人助手通过聊天界面提供服务。5. 其他提到的研究还包括用于训练 LLM 的开源数据集，如 RedPajama 和 RefinedWeb。6. 还有关于模型架构、训练策略和优化技术的研究，如 Transformer 架构、RoPE 位置编码方法、MQA 机制、AdamW 优化器等。7. 论文还涉及到多语言分词器的开发，以及如何通过多语言数据增强模型的理解和分析能力。8. 最后，论文还提到了关于安全性和道德性的研究，例如通过人类反馈强化学习来使模型输出更符合人类偏好和价值观。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤解决了中文环境下开源大型语言模型表现不佳的问题：1. ** 多语言预训练数据集 **：收集了一个包含 2.65 万亿个标记的多语言语料库，其中 41.5% 是中文数据。这个数据集通过一个严格的预训练数据处理管道进行清洗，以提高数据质量。2. ** 模型架构 **：YAYI 2 模型基于 Transformer 架构，采用仅解码器的结构，并在自动回归模式下进行训练。模型使用了 FlashAttention 2 和多查询注意力（MQA）机制来加速训练和推理过程。3. ** 对齐人类价值观 **：通过监督微调（SFT）与数百万指令输出对以及人类反馈强化学习（RLHF）来调整 YAYI 2 基础模型，使其更好地支持长指令和多轮对话。4. ** 多语言分词器 **：开发了一个高质量的多语言分词器，支持包括中文和英文在内的多种语言，以处理不同语言的数据。5. ** 长文本和多轮对话处理 **：通过扩展上下文窗口，YAYI 2 模型增强了处理长文本和多轮对话的能力。6. ** 安全性和道德性 **：在预训练和微调阶段实施了数据安全协议，确保数据的完整性和合规性，防止模型学习和生成不适当的信息。7. ** 评估 **：在多个基准测试上评估 YAYI 2 模型，包括知识理解、数学推理和编程能力，并与其它相似规模的开源模型进行比较，证明了其优越性。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估 YAYI 2 模型的性能：1. ** 知识理解评估 **：在多个基准测试上进行评估，包括 MMLU（多学科英语知识评估）、C-Eval（中文综合考试评估）、CMMLU（中文知识推理评估）、AGIEval（中英文知识推理评估）和 GAOKAO-Bench（中文高考知识推理评估）。2. ** 数学和逻辑推理评估 **：在 GSM8K（数学推理）、MATH（数学问题解决）和 BBH（逻辑推理、常识理解和数学）等基准测试上评估模型的数学和逻辑推理能力。3. ** 编程能力评估 **：使用 HumanEval 和 MBPP（Python 编程问题）基准测试来评估模型的编程能力。4. ** 与其它模型的比较 **：将 YAYI 2 模型与其它相似规模的开源模型（如 MPT-30B、Falcon-40B、LLaMA 2-34B、Baichuan 2-13B、Qwen-14B+72B、InternLM-20B、Aquila 2-34B 和 Yi-34B）在上述基准测试上进行比较。5. ** 长指令和多轮对话支持 **：展示了 YAYI 2 模型在处理长指令、多轮对话和特定领域任务方面的能力。6. ** 安全性评估 **：在预训练和微调阶段实施了数据安全协议，确保数据的完整性和合规性，防止模型学习和生成不适当的信息。

Q: 有什么可以进一步探索的点？

A: 尽管 YAYI 2 模型在多个方面取得了显著的性能提升，但仍有一些潜在的研究方向可以进一步探索：1. ** 模型泛化能力 **：尽管 YAYI 2 在多个基准测试上表现优异，但在更广泛的、未见过的数据集上测试其泛化能力仍然很重要。2. ** 安全性和道德性改进 **：持续研究和开发新的技术来减少模型生成有害内容的风险，以及更好地符合道德和法律规定。3. ** 计算效率优化 **：研究新的算法和硬件加速技术，以提高模型训练和推理的效率，尤其是在大规模集群上。4. ** 多语言理解 **：尽管 YAYI 2 在多语言方面取得了进展，但进一步提升模型对低资源语言和方言的理解仍然是一个挑战。5. ** 长文本处理 **：虽然 YAYI 2 通过扩展上下文窗口提高了处理长文本的能力，但进一步研究如何更有效地处理超长文档仍然是有意义的。6. ** 可解释性和透明度 **：提高模型决策过程的可解释性，使用户能够理解模型是如何得出特定输出的。7. ** 实时应用和交互 **：研究如何将 YAYI 2 集成到实时应用中，如聊天机器人、虚拟助手和在线客服系统，以及如何提高交互的自然性和流畅性。8. ** 模型压缩和蒸馏 **：探索模型压缩和蒸馏技术，以创建更小、更高效的 YAYI 2 版本，便于在资源受限的环境中部署。9. ** 跨领域知识融合 **：研究如何将 YAYI 2 与特定领域的知识库和数据源结合起来，以提供更专业和准确的回答。10. ** 持续学习 **：开发机制使 YAYI 2 能够持续学习和适应新信息，保持其知识的时效性和准确性。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了 YAYI 2，这是一个包含基础模型和聊天模型的多语言大型语言模型（LLM），具有 300 亿参数。YAYI 2 在多语言语料库上从头开始预训练，并通过与人类价值观对齐的微调过程进行优化。论文的主要内容包括：1. ** 多语言预训练数据集 **：描述了如何收集和处理一个包含 2.65 万亿标记的多语言数据集，特别强调了中文内容的包含。2. ** 模型架构和技术 **：阐述了基于 Transformer 的模型架构，包括 RoPE 位置编码、MQA 注意力机制、AdamW 优化器等技术细节。3. ** 对齐人类价值观 **：通过监督微调和人类反馈强化学习（RLHF）来调整模型，以更好地支持长指令和多轮对话。4. ** 安全性和合规性 **：在预训练和微调阶段实施数据安全协议，确保数据质量和遵守法规。5. ** 评估和比较 **：在多个知识理解、数学推理、编程和对话能力基准测试中评估 YAYI 2，并与其它类似规模的开源模型进行比较，证明了其优越性。6. ** 模型能力和应用 **：展示了 YAYI 2 在处理长文本、多轮对话和特定领域任务方面的能力。7. ** 持续开发和反馈 **：论文最后强调 YAYI 2 仍在积极开发中，并欢迎来自研究界和工业界的反馈和建议。