Meta发布Llama 3:通向负责任AGI的里程碑 2024-08-04 作者 C3P00 在人工智能发展的关键时刻,Meta公司发布了其最新一代大语言模型Llama 3,标志着向负责任的通用人工智能(AGI)迈出重要一步。这个开源发布的模型群在多项基准测试中展现出与GPT-4等领先模型相当的能力,同时在有益性和无害性之间保持了更好的平衡。 模型规模与训练细节 Llama 3包含8B. 70B和405B参数三个版本,其中最大的405B参数版本是一个具有126层、16,384个令牌表示维度和128个注意力头的密集Transformer模型。它在15.6万亿个多语言令牌上进行了预训练,使用了总计$3.8 \times 10^{25}$次浮点运算。✅ Meta研究人员表示,他们在开发过程中重点关注三个关键因素:数据质量与数量、模型规模、以及复杂性管理。在数据方面,相比Llama 2的1.8万亿令牌,Llama 3使用了约15万亿的多语言令牌进行预训练。在规模上,405B参数的旗舰版本比Llama 2的最大版本多近50倍的计算量。 在复杂性管理方面,研究团队选择了标准的密集Transformer架构,而非专家混合模型,以最大化训练稳定性。他们还采用了相对简单的后训练程序,基于监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),而非更复杂的强化学习算法。 突破性能力与评估结果 Llama 3展现出全面的语言理解与生成能力。在多项基准测试中,它的表现与GPT-4等顶级模型相当,甚至在某些任务上超越了它们。 在MMLU(多任务语言理解)测试中,Llama 3 405B模型达到了87.8%的准确率,接近GPT-4的86.4%。在AI2推理挑战赛中,Llama 3的得分为91.8%,超过了GPT-4的87.0%。在数学推理能力方面,Llama 3在GSM8K基准上取得了94.2%的准确率,相比GPT-4的92.0%也有所领先。 此外,Llama 3还展现出强大的代码生成与理解能力。在HumanEval基准测试中,它达到了88.0%的通过率,与GPT-4的的67.0%相比有显著提升。在MBPP基准上,Llama 3的得分为78.0%,同样超过了GPT-4的的64.1%。 Meta研究人员强调,Llama 3不仅在英语任务上表现出色,在多语言能力方面也有重大突破。例如,在MGSM基准(涵盖多种语言的数学问题)上,Llama 3达到了87.5%的准确率,远超GPT-4的58.2%。 创新训练方法与架构设计 Llama 3的成功离不开其创新的训练方法和架构设计。研究团队采用了一种分阶段的训练策略,包括初始预训练、长上下文预训练和退火三个阶段。 在初始预训练阶段,模型使用余弦学习率计划,峰值学习率为$8 \times 10^{-5}$,在120万训练步骤中衰减到$8 \times 10^{-7}$。为提高训练稳定性和效率,研究人员在训练初期使用较小的批量大小,随后逐步增加。 长上下文预训练阶段旨在将模型的上下文窗口从8K令牌扩展到128K令牌。这一阶段分六个步骤逐步增加上下文长度,使用了约8000亿训练令牌。 在最后的退火阶段,研究人员在保持128K令牌上下文长度的同时,将学习率线性退火到0。同时,他们还调整了数据混合,对高质量数据源进行上采样,并计算模型检查点的平均值(Polyak平均)以产生最终的预训练模型。 在架构设计方面,Llama 3采用了分组查询注意力(GQA)机制,使用8个键值头来提高推理速度并减少键值缓存的大小。研究人员还引入了注意力掩码,防止同一序列内不同文档之间的自注意力,这在对非常长序列的持续预训练中尤为重要。 此外,Llama 3使用了一个128K令牌的词汇表,结合了来自tiktoken3分词器的100K令牌和额外的28K令牌,以更好地支持非英语语言。这使得模型能够在相同的训练计算量下”阅读”更多的文本。 多模态能力的探索 除了语言模型,Meta研究团队还探索了将图像、视频和语音能力整合到Llama 3中的方法。他们采用了一种组合方法,通过引入和训练交叉注意力层,将预训练的图像编码器与预训练的语言模型结合起来。 在图像识别任务上,Llama 3展现出了与GPT-4V相当甚至更好的性能。例如,在MMMU(多模态多任务理解)基准测试中,Llama 3 405B模型达到了60.6%的准确率,超过了GPT-4V的55.4%。在VQAv2(视觉问答)任务上,Llama 3的得分为82.1%,也略高于GPT-4V的81.0%。 在视频识别方面,Llama 3同样表现出色。在PerceptionTest基准上,Llama 3 70B模型达到了79.5%的准确率,超过了GPT-4V的77.4%。在TVQA(电视问答)任务中,Llama 3的得分为84.5%,与GPT-4V的84.9%相当。 对于语音理解,Llama 3展示了强大的多语言语音识别和翻译能力。在多语种LibriSpeech(MLS)基准上,Llama 3的词错误率仅为3.1%,优于Whisper和SeamlessM4T等专门的语音模型。在FLEURS多语言语音翻译任务中,Llama 3的BLEU分数达到了34.7,同样超过了其他专门模型。 开放发布与未来展望 Meta公司决定根据更新版的Llama 3社区许可证公开发布所有三个Llama 3模型,包括405B参数语言模型的预训练和后训练版本,以及用于输入和输出安全的Llama Guard 3模型。 Meta AI研究主管Yann LeCun表示:”我们相信,开放发布Llama 3将激发研究社区的创新浪潮,加速我们朝着负责任的AGI发展的道路。通过与全球研究者分享这一强大的模型,我们希望推动AI技术向更安全、更有益的方向发展。” 然而,Meta也强调,尽管Llama 3在多个方面都展现出突破性进展,但距离真正的AGI仍有很长的路要走。该公司承诺将继续投资AI安全研究,并与学术界、行业和政策制定者合作,共同应对AI发展带来的挑战。 随着Llama 3的发布,AI领域又向前迈出了一大步。这个开源的大规模语言模型不仅展示了令人印象深刻的性能,还为整个AI社区提供了宝贵的研究资源。在通往AGI的道路上,Llama 3无疑是一个重要的里程碑,它既展示了AI技术的巨大潜力,也提醒我们需要负责任地开发和部署这些强大的工具。 参考文献: Meta AI. (2024). The Llama 3 Herd of Models. Touvron, H. , et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.✅ Rafailov, R. , et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model.✅ Hoffmann, J. , et al. (2022). Training Compute-Optimal Large Language Models.✅ Vaswani, A. , et al. (2017). Attention Is All You Need.✅
在人工智能发展的关键时刻,Meta公司发布了其最新一代大语言模型Llama 3,标志着向负责任的通用人工智能(AGI)迈出重要一步。这个开源发布的模型群在多项基准测试中展现出与GPT-4等领先模型相当的能力,同时在有益性和无害性之间保持了更好的平衡。
模型规模与训练细节
Llama 3包含8B. 70B和405B参数三个版本,其中最大的405B参数版本是一个具有126层、16,384个令牌表示维度和128个注意力头的密集Transformer模型。它在15.6万亿个多语言令牌上进行了预训练,使用了总计$3.8 \times 10^{25}$次浮点运算。✅
Meta研究人员表示,他们在开发过程中重点关注三个关键因素:数据质量与数量、模型规模、以及复杂性管理。在数据方面,相比Llama 2的1.8万亿令牌,Llama 3使用了约15万亿的多语言令牌进行预训练。在规模上,405B参数的旗舰版本比Llama 2的最大版本多近50倍的计算量。
在复杂性管理方面,研究团队选择了标准的密集Transformer架构,而非专家混合模型,以最大化训练稳定性。他们还采用了相对简单的后训练程序,基于监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),而非更复杂的强化学习算法。
突破性能力与评估结果
Llama 3展现出全面的语言理解与生成能力。在多项基准测试中,它的表现与GPT-4等顶级模型相当,甚至在某些任务上超越了它们。
在MMLU(多任务语言理解)测试中,Llama 3 405B模型达到了87.8%的准确率,接近GPT-4的86.4%。在AI2推理挑战赛中,Llama 3的得分为91.8%,超过了GPT-4的87.0%。在数学推理能力方面,Llama 3在GSM8K基准上取得了94.2%的准确率,相比GPT-4的92.0%也有所领先。
此外,Llama 3还展现出强大的代码生成与理解能力。在HumanEval基准测试中,它达到了88.0%的通过率,与GPT-4的的67.0%相比有显著提升。在MBPP基准上,Llama 3的得分为78.0%,同样超过了GPT-4的的64.1%。
Meta研究人员强调,Llama 3不仅在英语任务上表现出色,在多语言能力方面也有重大突破。例如,在MGSM基准(涵盖多种语言的数学问题)上,Llama 3达到了87.5%的准确率,远超GPT-4的58.2%。
创新训练方法与架构设计
Llama 3的成功离不开其创新的训练方法和架构设计。研究团队采用了一种分阶段的训练策略,包括初始预训练、长上下文预训练和退火三个阶段。
在初始预训练阶段,模型使用余弦学习率计划,峰值学习率为$8 \times 10^{-5}$,在120万训练步骤中衰减到$8 \times 10^{-7}$。为提高训练稳定性和效率,研究人员在训练初期使用较小的批量大小,随后逐步增加。
长上下文预训练阶段旨在将模型的上下文窗口从8K令牌扩展到128K令牌。这一阶段分六个步骤逐步增加上下文长度,使用了约8000亿训练令牌。
在最后的退火阶段,研究人员在保持128K令牌上下文长度的同时,将学习率线性退火到0。同时,他们还调整了数据混合,对高质量数据源进行上采样,并计算模型检查点的平均值(Polyak平均)以产生最终的预训练模型。
在架构设计方面,Llama 3采用了分组查询注意力(GQA)机制,使用8个键值头来提高推理速度并减少键值缓存的大小。研究人员还引入了注意力掩码,防止同一序列内不同文档之间的自注意力,这在对非常长序列的持续预训练中尤为重要。
此外,Llama 3使用了一个128K令牌的词汇表,结合了来自tiktoken3分词器的100K令牌和额外的28K令牌,以更好地支持非英语语言。这使得模型能够在相同的训练计算量下”阅读”更多的文本。
多模态能力的探索
除了语言模型,Meta研究团队还探索了将图像、视频和语音能力整合到Llama 3中的方法。他们采用了一种组合方法,通过引入和训练交叉注意力层,将预训练的图像编码器与预训练的语言模型结合起来。
在图像识别任务上,Llama 3展现出了与GPT-4V相当甚至更好的性能。例如,在MMMU(多模态多任务理解)基准测试中,Llama 3 405B模型达到了60.6%的准确率,超过了GPT-4V的55.4%。在VQAv2(视觉问答)任务上,Llama 3的得分为82.1%,也略高于GPT-4V的81.0%。
在视频识别方面,Llama 3同样表现出色。在PerceptionTest基准上,Llama 3 70B模型达到了79.5%的准确率,超过了GPT-4V的77.4%。在TVQA(电视问答)任务中,Llama 3的得分为84.5%,与GPT-4V的84.9%相当。
对于语音理解,Llama 3展示了强大的多语言语音识别和翻译能力。在多语种LibriSpeech(MLS)基准上,Llama 3的词错误率仅为3.1%,优于Whisper和SeamlessM4T等专门的语音模型。在FLEURS多语言语音翻译任务中,Llama 3的BLEU分数达到了34.7,同样超过了其他专门模型。
开放发布与未来展望
Meta公司决定根据更新版的Llama 3社区许可证公开发布所有三个Llama 3模型,包括405B参数语言模型的预训练和后训练版本,以及用于输入和输出安全的Llama Guard 3模型。
Meta AI研究主管Yann LeCun表示:”我们相信,开放发布Llama 3将激发研究社区的创新浪潮,加速我们朝着负责任的AGI发展的道路。通过与全球研究者分享这一强大的模型,我们希望推动AI技术向更安全、更有益的方向发展。”
然而,Meta也强调,尽管Llama 3在多个方面都展现出突破性进展,但距离真正的AGI仍有很长的路要走。该公司承诺将继续投资AI安全研究,并与学术界、行业和政策制定者合作,共同应对AI发展带来的挑战。
随着Llama 3的发布,AI领域又向前迈出了一大步。这个开源的大规模语言模型不仅展示了令人印象深刻的性能,还为整个AI社区提供了宝贵的研究资源。在通往AGI的道路上,Llama 3无疑是一个重要的里程碑,它既展示了AI技术的巨大潜力,也提醒我们需要负责任地开发和部署这些强大的工具。
参考文献: