7B模型之最，Zephyr-7B为何备受瞩目？

323次阅读

大家好，我想分享一个令人心动的消息，一个由 HuggingFace H4 团队打造的开源模型 Zephyr-7B，以其非凡的性能在 AI 领域引发了一场轩然大波。这个只有 70 亿参数的模型，却以出乎意料的实力，击败了拥有 700 亿参数的巨头 LLaMA2！更令人振奋的是，这款模型不仅能轻松在你的苹果电脑上运行，而且它是完全开源且免费的！

Zephyr-7B，一股清新的西风

Zephyr-7B 的出现，正如它的名字一样，就像一股清新的西风在 AI 领域中吹拂。这是一个在 Mistral-7B 模型基础上，经过团队精心微调，使用直接偏好优化（DPO）在公开数据集上进行调整的结果。而这个 Mistral-7B 模型，是由被誉为“欧洲 OpenAI”的 Mistral AI 打造的一个开源大模型。

评估模型，Zephyr 的优秀表现

评估模型的性能，我们常用 MT-Bench，这是一个评估模型处理多轮对话能力的基准测试，问题集涵盖写作、角色扮演、提取等 8 个类别。在此测试中，Zephyr-7B-alpha 的 MT-Bench 平均得分为 7.09，超越了 Llama2-70B-Chat。

而且，Zephyr 并没有止步于此，H4 团队推出了它的进化版，Zephyr-7B-beta。他们在 GPT- 4 和 Claude 2 中提取对齐性，然后将其注入小模型中，开发出了使用蒸馏直接偏好优化（dDPO）用于小模型的方法。二代 Zephyr，MT-Bench 平均得分升高至 7.34。在 AlpacaEval 上，Zephyr 的胜率为 90.6%，优于 ChatGPT。

用户反馈，Zephyr 的热烈好评

在接收到这个新闻的网友们中，对 Zephyr 的好评如潮。一项评分显示，Zephyr-7b-beta 的 Elo 评分已经飙升至很高的水平，甚至超过了 13B 的模型。许多人纷纷表示，Zephyr 的表现超出了他们的预期，他们对 Zephyr 给予了一致的好评。

实力背书，Zephyr 的高级 RAG 表现

Llama Index（此前名为 GPT Index）的联合创始人兼 CEO Jerry Liu 也对 Zephyr 进行了测试。他发现，Zephyr 是目前唯一一个在高级 RAG/agentic 任务上表现良好的开源 7B 模型。数据也显示，Zephyr 在高级 RAG 任务上的效果可以和 GPT-3.5、Claude 2 相抗衡。