7B模型之最,Zephyr-7B为何备受瞩目?

323次阅读
没有评论

大家好,我想分享一个令人心动的消息,一个由 HuggingFace H4 团队打造的开源模型 Zephyr-7B,以其非凡的性能在 AI 领域引发了一场轩然大波。这个只有 70 亿参数的模型,却以出乎意料的实力,击败了拥有 700 亿参数的巨头 LLaMA2!更令人振奋的是,这款模型不仅能轻松在你的苹果电脑上运行,而且它是完全开源且免费的!

Zephyr-7B,一股清新的西风

Zephyr-7B 的出现,正如它的名字一样,就像一股清新的西风在 AI 领域中吹拂。这是一个在 Mistral-7B 模型基础上,经过团队精心微调,使用直接偏好优化(DPO)在公开数据集上进行调整的结果。而这个 Mistral-7B 模型,是由被誉为“欧洲 OpenAI”的 Mistral AI 打造的一个开源大模型。

评估模型,Zephyr 的优秀表现

评估模型的性能,我们常用 MT-Bench,这是一个评估模型处理多轮对话能力的基准测试,问题集涵盖写作、角色扮演、提取等 8 个类别。在此测试中,Zephyr-7B-alpha 的 MT-Bench 平均得分为 7.09,超越了 Llama2-70B-Chat。

而且,Zephyr 并没有止步于此,H4 团队推出了它的进化版,Zephyr-7B-beta。他们在 GPT- 4 和 Claude 2 中提取对齐性,然后将其注入小模型中,开发出了使用蒸馏直接偏好优化(dDPO)用于小模型的方法。二代 Zephyr,MT-Bench 平均得分升高至 7.34。在 AlpacaEval 上,Zephyr 的胜率为 90.6%,优于 ChatGPT。

用户反馈,Zephyr 的热烈好评

在接收到这个新闻的网友们中,对 Zephyr 的好评如潮。一项评分显示,Zephyr-7b-beta 的 Elo 评分已经飙升至很高的水平,甚至超过了 13B 的模型。许多人纷纷表示,Zephyr 的表现超出了他们的预期,他们对 Zephyr 给予了一致的好评。

实力背书,Zephyr 的高级 RAG 表现

Llama Index(此前名为 GPT Index)的联合创始人兼 CEO Jerry Liu 也对 Zephyr 进行了测试。他发现,Zephyr 是目前唯一一个在高级 RAG/agentic 任务上表现良好的开源 7B 模型。数据也显示,Zephyr 在高级 RAG 任务上的效果可以和 GPT-3.5、Claude 2 相抗衡。

研发成本,Zephyr 的经济性

最后,我想特别提到的是,Zephyr 的训练成本。按照研究团队的说法,微调这个模型只需要 500 美元,也就是在 16 个 A100 上跑 8 小时。这样的成本效益,无疑让 Zephyr 在 AI 模型的竞争中占据了更大的优势。

总的来说,Zephyr-7B 的出现,无疑为 AI 领域带来了一场革新。

正文完
 
评论(没有评论)