YAYI2 模型

152次阅读

YAYI2 模型是一款开源大语言模型。它采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练 [1]。YAYI2-30B 是 YAYI2 模型的一个版本，它是基于 Transformer 架构的大语言模型，参数规模为 30B。该模型通过百万级指令进行微调，并借助人类反馈强化学习方法，以更好地使模型与人类价值观对齐 [2]。

以下是 YAYI2-30B 模型的一些细节：

n_layers: 64
n_heads: 64
hidden_size: 7168
vocab_size: 81920
sequence length: 4096[2]

要使用 YAYI2-30B 模型，您需要满足以下要求：

Python 3.8 及以上版本
PyTorch 2.0.1 及以上版本
建议使用 CUDA 11.7 及以上版本
运行 BF16 或 FP16 模型需要至少 80GB 显存（例如 1xA100）[2]

您可以使用 Hugging Face 的 Transformers 库来快速开始使用 YAYI2-30B 模型。下面是一个快速开始的示例代码：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True)

inputs = tokenizer('The winter in Beijing is', return_tensors='pt')
inputs = inputs.to('cuda')

pred = model.generate(
    **inputs, 
    max_new_tokens=256, 
    eos_token_id=tokenizer.eos_token_id, 
    do_sample=True,
    repetition_penalty=1.2,
    temperature=0.4, 
    top_k=100, 
    top_p=0.8
)

print(tokenizer.decode(pred.cpu(), skip_special_tokens=True))

YAYI2-30B 模型在多个基准数据集上进行了评测，包括语言理解、学科知识、数学推理、逻辑推理和代码生成等方面的表现。与其他规模相近的开源模型相比，YAYI2-30B 模型展现出了显著的性能提升 [2]。

评测结果如下（部分数据集）：