YAYI2 模型是一款开源大语言模型。它采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练[1]。YAYI2-30B 是 YAYI2 模型的一个版本,它是基于 Transformer 架构的大语言模型,参数规模为 30B。该模型通过百万级指令进行微调,并借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐[2]。
以下是 YAYI2-30B 模型的一些细节:
- n_layers: 64
- n_heads: 64
- hidden_size: 7168
- vocab_size: 81920
- sequence length: 4096[2]
要使用 YAYI2-30B 模型,您需要满足以下要求:
- Python 3.8 及以上版本
- PyTorch 2.0.1 及以上版本
- 建议使用 CUDA 11.7 及以上版本
- 运行 BF16 或 FP16 模型需要至少 80GB 显存(例如 1xA100)[2]
您可以使用 Hugging Face 的 Transformers 库来快速开始使用 YAYI2-30B 模型。下面是一个快速开始的示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True)
inputs = tokenizer('The winter in Beijing is', return_tensors='pt')
inputs = inputs.to('cuda')
pred = model.generate(
**inputs,
max_new_tokens=256,
eos_token_id=tokenizer.eos_token_id,
do_sample=True,
repetition_penalty=1.2,
temperature=0.4,
top_k=100,
top_p=0.8
)
print(tokenizer.decode(pred.cpu(), skip_special_tokens=True))
YAYI2-30B 模型在多个基准数据集上进行了评测,包括语言理解、学科知识、数学推理、逻辑推理和代码生成等方面的表现。与其他规模相近的开源模型相比,YAYI2-30B 模型展现出了显著的性能提升[2]。
评测结果如下(部分数据集):
- 知识理解:80.9
- 数学:80.5
- 逻辑推理:62.0
- 代码生成:45.8[2]
请注意,使用 YAYI2-30B 模型和数据需要遵循雅意 YAYI2 模型社区许可协议。如果您希望将 YAYI2-30B 模型用于商业用途,请参考雅意 YAYI2 模型商用许可协议[2]。
Learn more: