零一万物（01.AI）推出全新AI大模型：Yi系列

291次阅读

欢迎诸位，我今天要分享的是一个振奋人心的新闻：零一万物（01.AI），一个全球领先的 AI 技术与应用公司，刚刚发布了它们新一代的 AI 大模型——Yi 系列。Yi 系列模型是一组全新的大型语言模型，它们的参数规模分别为 60 亿（Yi-6B）和 340 亿（Yi-34B）。而且，它们都支持在推理阶段将序列长度扩展至 32K。

01-ai/Yi-34B · Hugging Face

一、Yi 系列模型的诞生

Yi 系列模型是零一万物研发团队自主训练的大语言模型。首次公开发布包含两个参数尺寸为 6B 和 34B 的双语（英 / 中）基础模型。它们都是以 4K 序列长度进行训练，但在推理时可以扩展到 32K。

二、模型性能的优越表现

Yi-6B 和 Yi-34B 基础模型在 2023 年 11 月 2 日发布。在模型性能上，Yi 系列模型在多项评测中展现出了全球领跑的优秀性能。

对比同类型的开源模型，我们发现，不同模型可能采用不同的提示、后处理策略和取样技术，可能导致结果有显著的差异。我们的提示和后处理策略与原始基准测试保持一致，评估时采用贪婪解码，不对生成的内容进行任何后处理。对于原作者未报告的分数（包括以不同设定报告的分数），我们试图用我们的流程得出结果。

我们采用了 Llama2 的方法论来广泛评估模型的能力。具体来说，我们引入了 PIQA、SIQA、HellaSwag、WinoGrande、ARC、OBQA 和 CSQA 来评估常识推理能力。SquAD、QuAC 和 BoolQ 被用来评估阅读理解能力。CSQA 被单独用 7 -shot 设置进行测试，而所有其他测试都采用了 0 -shot 配置。此外，我们在 ”Math & Code” 分类下引入了 GSM8K（8-shot@1）、MATH（4-shot@1）、HumanEval（0-shot@1）和 MBPP（3-shot@1）。由于技术限制，我们没有对 Falcon-180 进行 QuAC 和 OBQA 的测试，分数是通过平均剩余任务的分数得出的。由于这两项任务的分数通常低于平均值，我们认为 Falcon-180B 的性能没有被低估。

三、模型的使用

我们在 Github 仓库上提供了关于如何使用此模型的一般指导。

四、免责声明

尽管我们在训练过程中使用数据合规性检查算法，以尽我们最大的能力确保训练模型的合规性，但由于数据的复杂性和语言模型使用场景的多样性，我们无法保证模型在所有场景中都能生成正确和合理的输出。请注意，模型仍有可能产生问题输出的风险。我们对任何由误用、误导、非法使用和相关的错误信息，以及任何相关的数据安全问题产生的风险和问题不承担责任。