开源模型大比拼：Mixtral、Llama 3、Phi-3、OpenELM 谁更胜一筹？

大型语言模型（LLM）的开源浪潮正在席卷全球，各种新模型层出不穷，让人眼花缭乱。最近，Mistral AI 的 Mixtral 8x22B. ��Meta AI 的 Llama 3、微软的 Phi-3 以及苹果的 OpenELM 等新模型纷纷发布，引发了广泛关注。究竟这些新模型有哪些亮点？它们在性能、效率和应用场景方面又有哪些区别呢？✅

本文将带你深入了解这四款新模型，并探讨它们在开源 LLM 领域中的地位和未来发展方向。

Mixtral 8x22B. ��模型越大越好？✅

Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家（MoE）模型，采用宽松的 Apache 2.0 开源许可证。与今年早些时候发布的 Mixtral 8x7B 相比，新模型的参数量大幅提升，达到了 8x22B. ��✅

Mixtral 8x22B 的核心思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。MoE 的优势在于能够在保持模型性能的同时，降低计算资源需求。

Mixtral 8x22B 在 MMLU 基准测试中表现出色，并且在参数量和计算资源需求方面取得了平衡。

Llama 3：数据越多越好？

Meta AI 的 Llama 3 模型延续了 Llama 系列的辉煌，其训练数据量大幅增加，达到了 15 万亿 token，远超 Llama 2 的 2 万亿 token。

Llama 3 的架构与 Llama 2 几乎一致，主要区别在于词汇库更大，以及更小型模型使用了分组查询注意力。

Llama 3 的出色表现得益于其庞大的训练数据，即使在超过 15 万亿 token 的规模上，模型仍然能够获得进一步提升。

Phi-3：数据质量更重要？

微软的 Phi-3 模型则更加注重数据质量，其训练数据量仅有 3.3 万亿 token，不到 Llama 3 的五分之一。

Phi-3 的秘诀在于使用了严格过滤的网络数据和合成数据，从而在数据质量上取得了优势。

Phi-3-mini 模型的参数量仅有 3.8B. ��却在基准测试中超越了 Llama 3 8B 模型，展现出其在数据质量方面的优势。✅

OpenELM：面向移动设备的轻量级模型

苹果公司发布的 OpenELM 模型套件旨在提供可在移动设备上部署的小型 LLM。OpenELM 拥有 4 种不同尺寸的模型，参数量分别为 270M. ��450M、1.1B 和 3B。✅

OpenELM 的亮点在于其详细分享了架构、训练方法和训练数据，并且在性能上超越了 OLMo，尽管其训练数据量更少。

OpenELM 的逐层扩展策略是一种新颖的设计，它可以有效地提升模型的效率，使其更适合在移动设备上运行。

DPO vs PPO：哪种对齐方法更强大？

除了新模型的发布，一篇名为《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》的论文探讨了 DPO 和 PPO 在 LLM 对齐方面孰优孰劣的问题。

论文的结论是：PPO 通常优于 DPO，并且 DPO 更容易受到分布外数据的影响。

四月发布的其它有趣论文

除了上面提到的新模型和论文，四月还涌现了许多其他值得关注的研究成果，例如：

KAN（Kolmogorov–Arnold Networks）模型，一种新的 MLP 替代方案，在准确度、神经扩展性能和可解释性方面具有优势。
RAG（Retrieval-Augmented Generation）模型的综述，全面总结了检索增强型 LLM 的组件、结构、应用和评估方法。
LoRA（Low-Rank Adaptation）技术，一种参数高效型微调技术，可以显著提升模型性能。
FILM-7B 模型，使用信息密集型方法训练，可以解决 LLM 的「中间丢失」问题。
LayerSkip 技术，可以加快 LLM 的推理速度。
等等。

总结：开源 LLM 领域百花齐放

四月发布的这些新模型和论文，展现了开源 LLM 领域的蓬勃发展。Mixtral、Llama 3、Phi-3 和 OpenELM 各具特色，为不同应用场景提供了更多选择。

未来，我们期待看到更多更强大、更可靠、更易用的开源 LLM 模型，推动人工智能技术走向更加成熟和广泛的应用。