斯坦福最新Sophia优化器比Adam快2倍

255次阅读

斯坦福大学最近发布了一篇研究论文，提出了一种名为 Sophia 的新型优化器，用于提高大型语言模型（LLM）的预训练效率。与目前广泛使用的 Adam 优化器相比，Sophia 优化器在预训练 GPT- 2 等模型时可以将训练时间减少约 50%。这意味着在相同的预算下，Sophia 优化器可以实现更好的预训练损失。该优化器利用轻量级二阶方法，通过对 Hessian 矩阵对角线的廉价随机估计来作为预调节器，并通过限幅机制来控制最坏情况下的更新大小。

关键概念

Sophia 优化器是一种新型优化器，用于提高大型语言模型的预训练效率。与 Adam 优化器相比，Sophia 可以在相同的预训练损失下将训练时间减少约 50%。
Sophia 是一种轻量级二阶优化器，利用 Hessian 矩阵对角线的廉价随机估计作为预调节器，并通过限幅机制来控制最坏情况下的更新大小。
随着模型尺寸的增加，Sophia 相对于 Adam 的优势变得越来越明显。在相同步数下，Sophia 的验证损失优于 Adam 和 Lion。
Sophia 优化器可以无缝集成到现有的训练流程中，无需对模型架构或计算基础设施进行特殊修改。

实验结果

实验结果表明，Sophia 优化器在预训练大型语言模型时表现优于 Adam 和 Lion 优化器。在相同的步数下，使用 Sophia 预训练的模型在多数任务上优于使用 Adam 和 Lion 预训练的模型。此外，使用 Sophia 预训练 100K 步的模型与使用 Adam 预训练 200K 步的模型具有相当的性能。这意味着 Sophia 优化器可以在更短的时间内实现相同或更好的预训练损失。

正文完

发表至： AGI

2023-05-30

AIGC导致内容生产大爆发的后果

Orca 2：推理技巧赋能小型语言模型，性能超越5-10倍大模型

A Prompt Learning Framework for Source Code Summarization

Prodia Labs：让AI集成变得轻松

QLoRA: 高效Finetuning 量化 LLMs