FP8-LM: Training FP8 Large Language Models 探索FP8低精度训练：大型语言模型（LLMs）的新篇章

107次阅读

这篇论文探索了使用 8 位浮点数 (FP8) 来有效训练大型语言模型(LLM)。论文的主要贡献和要点总结如下:

在 7B 到 175B 参数规模的 GPT 模型上验证了该 FP8 训练方案的效果。结果显示, 相比 BF16 训练,FP8 训练可以显著降低 GPU 内存占用(29%~39%)、权重相关通信量(63%~65%), 并提高吞吐量。模型性能不受影响。
将 FP8 训练应用到 GPT 模型的微调上, 包括教学调整和强化学习。结果同样展现出计算和内存上的节约。
通过大量的分析实验对 FP8 训练的设计选择进行了验证, 为后续研究提供了指导性结论。
本文是第一个将 FP8 计算、存储和通信全面渗透到大模型训练 entire pipeline 的工作, 可视为推动下一代低精度训练系统的重要一步。

本文对利用 FP8 进行大规模语言模型的高效低精度训练做出了重要探索, 在减少训练成本方面展现出令人鼓舞的潜力。论文的贡献具有重要的理论和实践价值。