FP8-LM: Training FP8 Large Language Models 探索FP8低精度训练:大型语言模型(LLMs)的新篇章

107次阅读
没有评论

这篇论文探索了使用 8 位浮点数 (FP8) 来有效训练大型语言模型(LLM)。论文的主要贡献和要点总结如下:

  1. 提出了一个新的 FP8 混合精度训练框架, 可以分阶段地引入 8 位梯度、优化器状态和分布式训练, 逐步发挥 FP8 的优势, 降低训练成本。
  2. 在这个框架下, 实现了 8 位梯度交流、8 位优化器和 8 位并行训练。具体来说:
  • 为 FP8 梯度交流设计了自动缩放技术, 解决了低位交流中的上下溢问题。
  • 实现了 FP8 优化器, 通过精度解耦找到哪些变量更适合低精度表达。
  • 在张量并行、流水线并行和序列并行中支持 FP8, 降低激活传递的通信量。
  1. 在 7B 到 175B 参数规模的 GPT 模型上验证了该 FP8 训练方案的效果。结果显示, 相比 BF16 训练,FP8 训练可以显著降低 GPU 内存占用(29%~39%)、权重相关通信量(63%~65%), 并提高吞吐量。模型性能不受影响。
  2. 将 FP8 训练应用到 GPT 模型的微调上, 包括教学调整和强化学习。结果同样展现出计算和内存上的节约。
  3. 通过大量的分析实验对 FP8 训练的设计选择进行了验证, 为后续研究提供了指导性结论。
  4. 本文是第一个将 FP8 计算、存储和通信全面渗透到大模型训练 entire pipeline 的工作, 可视为推动下一代低精度训练系统的重要一步。

本文对利用 FP8 进行大规模语言模型的高效低精度训练做出了重要探索, 在减少训练成本方面展现出令人鼓舞的潜力。论文的贡献具有重要的理论和实践价值。

FP8-LM: Training FP8 Large Language Models 探索 FP8 低精度训练:大型语言模型(LLMs)的新篇章
正文完
 
评论(没有评论)