2.大模型训练框架

2.大模型训练框架

LLM训练框架模块构建了覆盖全栈的大模型训练生态系统,集成20+专业训练框架和工具。核心框架包括:魔塔ms-swift(支持500+ LLMs和200+ MLLMs的全参数/PEFT训练)、Unsloth(2-5倍加速,80%内存节省)、英伟达Megatron-LM(超大规模transformer训练)、微软DeepSpeed(ZeRO优化器)、ColossalAI(高性能分布式训练)、Meta FairScaleLLaMA-Factory(WebUI界面,支持100+模型)、书生XTuner等。

先进算法涵盖GaLore梯度低秩投影、BAdam内存高效优化、APOLLO、Adam-mini、Muon等前沿优化器。实验监控提供MLflow、WandB、SwanLab等专业工具。配套Flash AttentionLiger Kernel等加速技术,以及Easy Dataset数据构造工具,形成从数据准备、模型训练到实验管理的完整闭环。

-----------------------------------------------------------

0.ms-swift-魔塔训练框架

简介

ms - swift是ModelScope社区提供的用于大语言模型和多模态大模型微调与部署的官方框架。它支持500 +大模型和200 +多模态大模型的训练、推理、评估、量化和部署等,集成了多种训练技术和人类对齐训练方法,还提供基于Gradio的Web UI和丰富的最佳实践。同时,还介绍了深度学习入门知识,包括模型推理、预训练范式、推理过程、PyTorch框架等内容。

核心功能

技术原理

应用场景

------------------------------------------------------------

0.unsloth

简介

Unsloth 的微调指南,介绍了大语言模型微调的基础知识,包括理解微调概念、选择合适模型与方法、准备数据集、了解模型参数、安装与配置、训练与评估、运行与保存模型等内容,并给出了示例和建议。

核心功能

技术原理

应用场景

------------------------------------------------------------

1. Megatron英伟达

简介

NVIDIA的Megatron-LM与Megatron-Core项目聚焦于大规模训练Transformer模型的GPU优化技术。Megatron-LM是研究型框架,Megatron-Core是GPU优化技术库,具有系统级优化创新和模块化API。项目提供多种模型预训练脚本,支持多类型并行训练,还涉及模型评估、优化与部署等功能。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.ColossalAI

简介

Colossal-AI 是一个统一的深度学习系统,旨在让大 AI 模型训练更便宜、快速且易实现。它提供分布式训练和推理的并行组件,支持多种并行策略和异构内存管理,在多个领域有应用案例,还提供命令行界面和配置工具。

核心功能

技术原理

Colossal-AI 引入统一接口,将顺序代码扩展到分布式环境,支持数据、流水线、张量和序列并行等训练方法,并集成异构训练和零冗余优化器(ZeRO),通过自动并行策略和内存管理技术,提高训练和推理效率。

应用场景

------------------------------------------------------------

1.DeepSpeed-微软

Snipaste<em>2025-07-17</em>19-52-16.png

简介

DeepSpeed是微软推出的开源深度学习优化软件套件,是轻量级PyTorch包装器。它集合分布式训练、推断、压缩等高效模块,旨在提高大规模模型训练的效率和可扩展性,助力训练和推理万亿参数的密集或稀疏模型。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.FairScale-meta

简介

FairScale 是一个由 Facebook Research 开发的 PyTorch 扩展库,旨在为高性能和大规模训练提供支持。它通过扩展 PyTorch 的基本功能,并集成最新的状态级(SOTA)扩展技术,帮助用户更高效地进行深度学习模型的训练。

核心功能

技术原理

FairScale 的核心技术原理在于其对 PyTorch 训练过程的底层优化和高级分布式策略的封装。它通过以下方式实现性能提升和规模扩展:

应用场景

------------------------------------------------------------

1.Horovod

Snipaste<em>2025-07-17</em>19-54-25.png

简介

Horovod 是由 LF AI & Data 基金会托管的分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet 等框架。其目标是让分布式深度学习变得快速且易于使用。

核心功能

技术原理

Horovod 核心原理基于 MPI 概念,如 size、rank、local rank、allreduce、allgather、broadcast 和 alltoall 等。分布式优化器将梯度计算委托给原始优化器,使用 allreduce 或 allgather 对梯度进行平均,然后应用这些平均梯度。

应用场景

------------------------------------------------------------

1.LLaMA-Factory

Snipaste<em>2025-07-17</em>19-55-53.png

简介

主要围绕LLaMA-Factory展开,它是简单易用且高效的大模型训练与微调平台,支持上百种预训练模型,涵盖多种训练算法、运算精度、优化算法等。同时介绍了基于Amazon SageMaker和LlamaFactory构建的一站式无代码模型微调部署平台Model Hub,降低技术门槛,加速AI应用开发。还给出了使用LLaMA-Factory进行Qwen3微调的实战指南。

核心功能

技术原理

应用场景

------------------------------------------------------------

easy-data

简介

Easy Dataset 是专为创建大型语言模型(LLM)微调数据集设计的应用程序,提供直观界面,可上传特定领域文件、智能分割内容、生成问题和高质量训练数据。其生成的结构化数据集兼容遵循 OpenAI 格式的 LLM API,让模型微调简单高效。LLaMA Factory 是开源低代码大模型微调框架,集成多种微调技术,支持零代码微调。

核心功能

技术原理

通过集成多种 LLM API(如 Ollama、OpenAI 等),利用核心库和工具实现文档处理、文本分割、问题与答案生成。借助提示词模板引导模型响应,使用数据库操作管理项目数据。

应用场景

------------------------------------------------------------

1.axolotl 训练框架

简介

Axolotl是一个旨在简化AI模型后训练流程的工具,支持多种主流模型(如LLaMA、Mistral、Mixtral等)及多样化训练方法(全微调、LoRA、QLoRA、QAT、偏好微调、强化学习等),具备易配置(单YAML文件管理全流程)、性能优化(Flash Attention、多GPU训练)、灵活数据集处理(本地/HuggingFace/云存储)及云就绪(Docker镜像/PyPI包)等特性,适用于从基础到高级的模型微调任务。

核心功能

技术原理

Axolotl基于HuggingFace Transformers框架,针对因果语言模型设计后训练流程。技术上集成参数高效微调(PEFT)技术(如LoRA/QLoRA),通过低秩矩阵分解减少可训练参数;采用Flash Attention、Xformers等注意力机制优化技术降低计算复杂度;结合FSDP(完全分片数据并行)、DeepSpeed等分布式训练框架实现多GPU/多节点扩展;支持序列并行(SP)以扩展上下文长度;通过YAML配置文件统一管理数据预处理(如alpaca格式解析)、模型加载(8bit/4bit量化)、训练超参数(学习率/批次大小)及后处理(LoRA权重合并)流程,确保全链路标准化。

应用场景

1.xtuner-书生浦源

简介

XTuner是由InternLM开发的高效、灵活且功能丰富的大模型微调工具包。它支持多种大模型,如InternLM2、Llama 2/3等,能进行连续预训练、指令微调等。在不同时间节点不断增加新功能,支持新模型和训练算法,其输出模型可与部署、评估工具集成。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.实验监控

简介

MLflow是一个开源平台,旨在帮助机器学习从业者和团队应对机器学习过程的复杂性,专注于机器学习项目的全生命周期,确保各阶段可管理、可追溯和可复现。其核心组件包括实验跟踪、模型打包、模型注册、服务、评估和可观测性等。该平台可在多种环境中运行,如本地开发、Amazon SageMaker、AzureML和Databricks等。由于另一个链接内容获取失败,无法将其相关信息纳入简介。

核心功能

技术原理

MLflow通过一系列API和工具实现其核心功能。在实验跟踪中,利用API记录模型训练过程中的参数和结果,并存储在后端存储中,通过交互式UI展示和比较。模型打包采用标准格式,将模型和元数据封装,确保依赖版本等信息可追溯。模型注册使用集中存储和API管理模型的全生命周期。服务功能借助Docker、Kubernetes等平台的相关技术实现模型部署。评估工具通过自动化脚本计算模型性能指标。可观测性通过与GenAI库的集成和Python SDK实现跟踪和监控。

应用场景

------------------------------------------------------------

SwanLab

Snipaste<em>2025-07-17</em>19-57-08.png

简介

SwanLab是一款开源、现代化设计的深度学习训练跟踪与可视化工具,支持云端/离线使用,适配30+主流AI训练框架。它提供实验跟踪、版本管理、可视化等功能,支持多人协作,可帮助AI开发团队改进模型训练流程。

核心功能

技术原理

SwanLab通过Python API嵌入到机器学习pipeline中,收集训练过程中的指标、超参数、日志等数据。它利用自身的可视化引擎将数据以图表形式展示,方便用户分析。同时,支持与多种主流框架集成,借助框架的特性实现分布式训练中的实验记录。在硬件监控方面,通过脚本获取CPU、GPU等硬件的系统级信息。

应用场景

------------------------------------------------------------

1.模型训练-实用技巧

简介

该仓库提供了FlashAttention和FlashAttention - 2的官方实现。FlashAttention可实现快速且内存高效的精确注意力计算,具有IO感知特性;FlashAttention - 2则在此基础上有更好的并行性和工作分区。此外还推出了FlashAttention - 3的beta版本。项目介绍了使用方法、安装要求、不同GPU的支持情况等内容,并给出了性能对比和测试方法。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.训练先进算法

简介

主要围绕大语言模型训练中的优化器展开。APOLLO是为大语言模型预训练和全参数微调设计的内存高效优化器,兼具SGD的低内存成本与AdamW的性能;Adam - mini是Adam的精简版,能以少50%的内存实现与AdamW相当或更好的性能;BAdam通过依次解决块坐标优化子问题,在全参数微调时大幅降低内存需求;Muon是用于神经网络隐藏层的优化器,在训练速度和性能上有出色表现。

核心功能

技术原理

应用场景

------------------------------------------------------------

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni 是字节跳动Seed团队开源的一款全模态分布式训练框架,基于PyTorch设计。它旨在以模型为中心,加速多模态大型语言模型(LLMs)的开发与训练,并支持任意模态模型的无缝扩展,提供模块化和高效的训练能力。

核心功能

技术原理

VeOmni 的核心技术原理是其模型中心化(Model-Centric)的设计理念和引入的分布式配方库(Distributed Recipe Zoo)。该框架将底层分布式并行策略(如数据并行、模型并行、流水线并行、专家并行等)从上层模型计算逻辑中抽象并解耦。这种架构允许用户像组装积木一样,灵活配置和组合不同的并行方案,以适应不同规模和模态(如文本、图像、音频等)的模型训练需求。基于PyTorch生态,VeOmni能够高效利用GPU资源,并通过优化并行策略,显著提升大规模模型,尤其是全模态MoE模型的训练吞吐量和扩展性。

应用场景

2.Firefly

简介

Firefly是开源大模型训练项目,支持对Qwen2、Llama3等主流大模型进行预训练、指令微调和DPO,提供全量参数训练、LoRA、QLoRA高效训练方式,还整理开源了指令微调数据集及模型权重。

核心功能

技术原理

应用场景

------------------------------------------------------------

2.MMEngine

简介

MMEngine 是基于 PyTorch 的深度学习模型训练基础库,作为 OpenMMLab 所有代码库的训练引擎,支持各研究领域的数百种算法,也可应用于非 OpenMMLab 项目。它集成主流大模型训练框架,支持多种训练策略,提供友好配置系统,涵盖主流训练监控平台。

核心功能

技术原理

基于 PyTorch 构建,通过集成大模型训练框架,利用其分布式训练、模型并行等特性提升训练效率。采用配置系统管理训练参数,支持多种格式配置文件,方便用户灵活配置。借助训练监控平台,实时记录和展示训练过程中的各项指标。

应用场景

------------------------------------------------------------

2.fastAI

简介

Fastai是一个开源的深度学习库,旨在通过提供高层组件,使深度学习实践者能够快速便捷地在标准深度学习领域获得最先进(State-of-the-Art, SOTA)的结果。同时,它也为研究人员提供了灵活的低层组件,便于混合和匹配以探索和构建新的深度学习方法,且在易用性、灵活性和性能之间取得了良好的平衡。

核心功能

技术原理

Fastai库采用分层架构设计,构建于PyTorch等主流深度学习框架之上,实现了从高层抽象到底层细节的逐步揭示。其核心原理包括:

应用场景

------------------------------------------------------------

3.openai-在线微调

简介

主要围绕OpenAI微调模型展开。介绍了OpenAI提供线上微调GPT模型的功能,是学习微调的快速入门方式。包含微调概念、准备与上传数据、训练微调模型及使用微调模型等步骤,还给出使用微调模型进行多轮对话和流式输出的代码示例,同时展示了OpenAI开发者平台的快速入门及API请求示例。

核心功能

技术原理

基于GPT模型,通过额外训练特定数据集,调整模型参数以改变输出结果。在数据处理上,需遵循特定格式要求,确保训练样本格式正确以保证训练效果。训练过程中,根据所选模型和训练样本量级,模型进行参数调整和优化。

应用场景

------------------------------------------------------------

⬆ 返回README目录

⬆ Back to Contents