QLoRA: 高效Finetuning 量化 LLMs
评论
《 “QLoRA: 高效Finetuning 量化 LLMs” 》 有 20 条评论
-
<a href="https://github.com/huggingface/blog/blob/main/4bit-transformers-bitsandbytes.md" rel="nofol… Read more
-
<a href="https://github.com/huggingface/blog/blob/main/4bit-transformers-bitsandbytes.md" rel="nofol… Read more
-
深度学习与bfloat16(BF16) <a href="https://blog.csdn.net/Night_MFC/article/details/107… Read more
-
深度学习与bfloat16(BF16) <a href="https://blog.csdn.net/Night_MFC/article/details/107… Read more
-
使用bitsandbytes、4 位量化和 QLoRA 使 LLM 更易于访问 <a href="https://zhuanlan.zhihu.c… Read more
-
使用bitsandbytes、4 位量化和 QLoRA 使 LLM 更易于访问 <a href="https://zhuanlan.zhihu.c… Read more
-
<a href="https://github.com/TimDettmers/bitsandbytes" rel="nofollow ugc">https://github.com/TimDettm… Read more
-
<a href="https://github.com/TimDettmers/bitsandbytes" rel="nofollow ugc">https://github.com/TimDettm… Read more
-
<a href="https://github.com/jllllll/bitsandbytes-windows-webui" rel="nofollow ugc">https://github.co… Read more
-
<a href="https://github.com/jllllll/bitsandbytes-windows-webui" rel="nofollow ugc">https://github.co… Read more
-
大型语言模型的量化(Quantization of Large Language Models) 大型语言模型的量化主要… Read more
-
大型语言模型的量化(Quantization of Large Language Models) 大型语言模型的量化主要… Read more
-
越小越好: Q8-Chat,在英特尔至强 CPU 上体验高效的生成式 AI <a href="https://githu… Read more
-
越小越好: Q8-Chat,在英特尔至强 CPU 上体验高效的生成式 AI <a href="https://githu… Read more
-
<a href="https://borrowastep.net/p/bitsandbytes-hzgevsyfz" rel="nofollow ugc">https://borrowastep.ne… Read more
-
<a href="https://borrowastep.net/p/bitsandbytes-hzgevsyfz" rel="nofollow ugc">https://borrowastep.ne… Read more
-
使用qlora对中文大语言模型进行微调
<a href="https://github.com/taishan1994/qlora-chine… Read more -
使用qlora对中文大语言模型进行微调
<a href="https://github.com/taishan1994/qlora-chines… Read more
发表回复
要发表评论,您必须先登录。
Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。
QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存:
(a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型;
(b)双重量化,通过量化量化常数来减少平均内存占用;
(c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。
结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。
artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)