Touvron, J. , Lachaux, M., Izacard, G., Hoffmann, J., & Joulin, A. (2023). Llama: Open and efficient large language models. arXiv preprint arXiv:2302.13971.✅
AI@Meta. (2024). Llama 3: Open and efficient large language models. Retrieved from https://ai.facebook.com/blog/llama-3-open-and-efficient-large-language-models/.
大型语言模型 (LLM) 在各种任务中展现出优异的性能,例如数学推理和问答。这些模型通常在大型网络数据上进行预训练,然后使用指令数据和人类偏好数据进行微调,以适应不同的下游任务。然而,完全微调需要大量的计算资源,限制了 LLM 在不同场景中的应用。
参数高效微调 (PEFT) 旨在降低预训练模型微调的计算和 GPU 内存成本。低秩自适应 (LoRA) 是最常用的 PEFT 方法之一,它假设线性模型权重的变化是低秩的。对于每个选定的权重矩阵,LoRA 只更新两个低秩矩阵,同时保持原始权重矩阵不变。在推理过程中,低秩矩阵被合并到预训练的线性权重中,因此不会引入额外的计算或内存成本。
尽管 LoRA 在效率方面表现出色,但它存在一些局限性。现有的 LoRA 方法通常随机初始化低秩矩阵,并在无指导的子空间中优化可训练参数。这种策略可能会覆盖预训练模型中重要的特征,从而影响低秩自适应方法的性能。
MiLoRA:利用次要奇异成分进行低秩自适应
为了解决这个问题,本文提出了一种名为 MiLoRA 的简单而有效的 PEFT 方法,它只更新权重矩阵的次要奇异成分,而保持主要奇异成分不变。
主要奇异成分 对应于权重矩阵中重要的特征,而 次要奇异成分 则包含噪声或长尾信息。MiLoRA 将低秩矩阵初始化在一个与主要矩阵正交的子空间中,从而最大限度地利用次要奇异成分来学习微调数据集,同时保留预训练模型的知识。
MiLoRA 的工作原理
实验结果
本文在常识推理、数学推理和指令遵循基准上进行了广泛的实验,结果表明 MiLoRA 始终优于 LoRA 和 PiSSA,而不会牺牲训练或推理效率。
常识推理: 在 LLaMA2-7B 和 LLaMA3-8B 上,MiLoRA 在八个常识推理数据集上的平均准确率分别提高了 1.6% 和 1.1%。
数学推理: 在 LLaMA2-7B 上,MiLoRA 在 GSM8K 和 MATH 数据集上的平均准确率分别提高了 1.92% 和 1.76%。
指令遵循: 在 LLaMA2-7B 上,MiLoRA 在 Alpaca-Eval v1.0 上的胜率达到 87.3%,与 LLaMA2 Chat 7B 的性能相当。
MiLoRA 的优势
结论
MiLoRA 是一种简单而有效的 PEFT 方法,它通过利用次要奇异成分来实现高效的 LLM 微调。实验结果表明,MiLoRA 在各种任务上都取得了优异的性能,同时保留了预训练模型的知识。
参考文献
下一步工作
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一种名为MiLoRA的新方法,旨在解决大型语言模型(LLMs)的高效微调(finetuning)问题。具体来说,它试图解决以下问题:
MiLoRA通过仅更新权重矩阵的次要奇异成分(minor singular components),同时保持主要奇异成分(principle singular components)固定,来解决上述问题。这种方法预期能够在微调任务中有效学习,同时更好地保留和利用预训练知识。
Q: 有哪些相关研究?
A: 这篇论文提到了多个与参数高效微调(PEFT)相关的研究工作,以下是一些主要的相关研究:
这些研究工作为大型语言模型的参数高效微调提供了多种方法和思路,而MiLoRA则是在此基础上提出的新方法,旨在通过特定的方式来平衡学习新任务和保留预训练知识。
Q: 论文如何解决这个问题?
A: 论文通过提出MiLoRA(Minor singular component based Low Rank Adaptation)方法来解决大型语言模型(LLMs)的高效微调问题。MiLoRA的核心思想和解决策略如下:
通过这些策略,MiLoRA旨在实现在微调过程中对大型语言模型的有效调整,同时最大限度地减少对已有预训练知识的干扰,以此提高微调的效率和效果。
Q: 论文做了哪些实验?
A: 论文中进行了一系列实验来评估MiLoRA方法的有效性,并与其他参数高效微调(PEFT)方法进行比较。以下是论文中提到的主要实验:
这些实验结果表明,MiLoRA在多个任务和数据集上均能实现优于现有PEFT方法的性能,同时保持了训练和推理的效率。
Q: 有什么可以进一步探索的点?
A: 尽管MiLoRA在实验中表现出色,但仍有一些潜在的研究方向和探索点,包括但不限于:
这些探索点不仅可以推动MiLoRA方法本身的发展,也有助于更广泛地理解和改进大型语言模型的微调策略。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下:
论文通过提出MiLoRA方法,为大型语言模型的高效微调提供了一种新的视角,并在多个任务上验证了其有效性。