开源模型大比拼:Mixtral、Llama 3、Phi-3、OpenELM 谁更胜一筹? 2024-06-18 作者 C3P00 大型语言模型(LLM)的开源浪潮正在席卷全球,各种新模型层出不穷,让人眼花缭乱。最近,Mistral AI 的 Mixtral 8x22B. Meta AI 的 Llama 3、微软的 Phi-3 以及苹果的 OpenELM 等新模型纷纷发布,引发了广泛关注。究竟这些新模型有哪些亮点?它们在性能、效率和应用场景方面又有哪些区别呢?✅ 本文将带你深入了解这四款新模型,并探讨它们在开源 LLM 领域中的地位和未来发展方向。 Mixtral 8x22B. 模型越大越好?✅ Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家(MoE)模型,采用宽松的 Apache 2.0 开源许可证。与今年早些时候发布的 Mixtral 8x7B 相比,新模型的参数量大幅提升,达到了 8x22B. ✅ Mixtral 8x22B 的核心思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。MoE 的优势在于能够在保持模型性能的同时,降低计算资源需求。 Mixtral 8x22B 在 MMLU 基准测试中表现出色,并且在参数量和计算资源需求方面取得了平衡。 Llama 3:数据越多越好? Meta AI 的 Llama 3 模型延续了 Llama 系列的辉煌,其训练数据量大幅增加,达到了 15 万亿 token,远超 Llama 2 的 2 万亿 token。 Llama 3 的架构与 Llama 2 几乎一致,主要区别在于词汇库更大,以及更小型模型使用了分组查询注意力。 Llama 3 的出色表现得益于其庞大的训练数据,即使在超过 15 万亿 token 的规模上,模型仍然能够获得进一步提升。 Phi-3:数据质量更重要? 微软的 Phi-3 模型则更加注重数据质量,其训练数据量仅有 3.3 万亿 token,不到 Llama 3 的五分之一。 Phi-3 的秘诀在于使用了严格过滤的网络数据和合成数据,从而在数据质量上取得了优势。 Phi-3-mini 模型的参数量仅有 3.8B. 却在基准测试中超越了 Llama 3 8B 模型,展现出其在数据质量方面的优势。✅ OpenELM:面向移动设备的轻量级模型 苹果公司发布的 OpenELM 模型套件旨在提供可在移动设备上部署的小型 LLM。OpenELM 拥有 4 种不同尺寸的模型,参数量分别为 270M. 450M、1.1B 和 3B。✅ OpenELM 的亮点在于其详细分享了架构、训练方法和训练数据,并且在性能上超越了 OLMo,尽管其训练数据量更少。 OpenELM 的逐层扩展策略是一种新颖的设计,它可以有效地提升模型的效率,使其更适合在移动设备上运行。 DPO vs PPO:哪种对齐方法更强大? 除了新模型的发布,一篇名为《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》的论文探讨了 DPO 和 PPO 在 LLM 对齐方面孰优孰劣的问题。 论文的结论是:PPO 通常优于 DPO,并且 DPO 更容易受到分布外数据的影响。 四月发布的其它有趣论文 除了上面提到的新模型和论文,四月还涌现了许多其他值得关注的研究成果,例如: KAN(Kolmogorov–Arnold Networks)模型,一种新的 MLP 替代方案,在准确度、神经扩展性能和可解释性方面具有优势。 RAG(Retrieval-Augmented Generation)模型的综述,全面总结了检索增强型 LLM 的组件、结构、应用和评估方法。 LoRA(Low-Rank Adaptation)技术,一种参数高效型微调技术,可以显著提升模型性能。 FILM-7B 模型,使用信息密集型方法训练,可以解决 LLM 的“中间丢失”问题。 LayerSkip 技术,可以加快 LLM 的推理速度。 等等。 总结:开源 LLM 领域百花齐放 四月发布的这些新模型和论文,展现了开源 LLM 领域的蓬勃发展。Mixtral、Llama 3、Phi-3 和 OpenELM 各具特色,为不同应用场景提供了更多选择。 未来,我们期待看到更多更强大、更可靠、更易用的开源 LLM 模型,推动人工智能技术走向更加成熟和广泛的应用。
大型语言模型(LLM)的开源浪潮正在席卷全球,各种新模型层出不穷,让人眼花缭乱。最近,Mistral AI 的 Mixtral 8x22B. Meta AI 的 Llama 3、微软的 Phi-3 以及苹果的 OpenELM 等新模型纷纷发布,引发了广泛关注。究竟这些新模型有哪些亮点?它们在性能、效率和应用场景方面又有哪些区别呢?✅
本文将带你深入了解这四款新模型,并探讨它们在开源 LLM 领域中的地位和未来发展方向。
Mixtral 8x22B. 模型越大越好?✅
Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家(MoE)模型,采用宽松的 Apache 2.0 开源许可证。与今年早些时候发布的 Mixtral 8x7B 相比,新模型的参数量大幅提升,达到了 8x22B. ✅
Mixtral 8x22B 的核心思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。MoE 的优势在于能够在保持模型性能的同时,降低计算资源需求。
Mixtral 8x22B 在 MMLU 基准测试中表现出色,并且在参数量和计算资源需求方面取得了平衡。
Llama 3:数据越多越好?
Meta AI 的 Llama 3 模型延续了 Llama 系列的辉煌,其训练数据量大幅增加,达到了 15 万亿 token,远超 Llama 2 的 2 万亿 token。
Llama 3 的架构与 Llama 2 几乎一致,主要区别在于词汇库更大,以及更小型模型使用了分组查询注意力。
Llama 3 的出色表现得益于其庞大的训练数据,即使在超过 15 万亿 token 的规模上,模型仍然能够获得进一步提升。
Phi-3:数据质量更重要?
微软的 Phi-3 模型则更加注重数据质量,其训练数据量仅有 3.3 万亿 token,不到 Llama 3 的五分之一。
Phi-3 的秘诀在于使用了严格过滤的网络数据和合成数据,从而在数据质量上取得了优势。
Phi-3-mini 模型的参数量仅有 3.8B. 却在基准测试中超越了 Llama 3 8B 模型,展现出其在数据质量方面的优势。✅
OpenELM:面向移动设备的轻量级模型
苹果公司发布的 OpenELM 模型套件旨在提供可在移动设备上部署的小型 LLM。OpenELM 拥有 4 种不同尺寸的模型,参数量分别为 270M. 450M、1.1B 和 3B。✅
OpenELM 的亮点在于其详细分享了架构、训练方法和训练数据,并且在性能上超越了 OLMo,尽管其训练数据量更少。
OpenELM 的逐层扩展策略是一种新颖的设计,它可以有效地提升模型的效率,使其更适合在移动设备上运行。
DPO vs PPO:哪种对齐方法更强大?
除了新模型的发布,一篇名为《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》的论文探讨了 DPO 和 PPO 在 LLM 对齐方面孰优孰劣的问题。
论文的结论是:PPO 通常优于 DPO,并且 DPO 更容易受到分布外数据的影响。
四月发布的其它有趣论文
除了上面提到的新模型和论文,四月还涌现了许多其他值得关注的研究成果,例如:
总结:开源 LLM 领域百花齐放
四月发布的这些新模型和论文,展现了开源 LLM 领域的蓬勃发展。Mixtral、Llama 3、Phi-3 和 OpenELM 各具特色,为不同应用场景提供了更多选择。
未来,我们期待看到更多更强大、更可靠、更易用的开源 LLM 模型,推动人工智能技术走向更加成熟和广泛的应用。