2.大模型训练框架

2.大模型训练框架

LLM训练框架模块构建了覆盖全栈的大模型训练生态系统,集成20+专业训练框架和工具。核心框架包括:魔塔ms-swift(支持500+ LLMs和200+ MLLMs的全参数/PEFT训练)、Unsloth(2-5倍加速,80%内存节省)、英伟达Megatron-LM(超大规模transformer训练)、微软DeepSpeed(ZeRO优化器)、ColossalAI(高性能分布式训练)、Meta FairScaleLLaMA-Factory(WebUI界面,支持100+模型)、书生XTuner等。

先进算法涵盖GaLore梯度低秩投影、BAdam内存高效优化、APOLLO、Adam-mini、Muon等前沿优化器。实验监控提供MLflow、WandB、SwanLab等专业工具。配套Flash AttentionLiger Kernel等加速技术,以及Easy Dataset数据构造工具,形成从数据准备、模型训练到实验管理的完整闭环。

-----------------------------------------------------------

0.ms-swift-魔塔训练框架

简介

ms - swift是ModelScope社区提供的用于大语言模型和多模态大模型微调与部署的官方框架。它支持500 +大模型和200 +多模态大模型的训练、推理、评估、量化和部署等,集成了多种训练技术和人类对齐训练方法,还提供基于Gradio的Web UI和丰富的最佳实践。同时,还介绍了深度学习入门知识,包括模型推理、预训练范式、推理过程、PyTorch框架等内容。

核心功能

技术原理

应用场景

------------------------------------------------------------

0.unsloth

简介

Unsloth 的微调指南,介绍了大语言模型微调的基础知识,包括理解微调概念、选择合适模型与方法、准备数据集、了解模型参数、安装与配置、训练与评估、运行与保存模型等内容,并给出了示例和建议。

核心功能

技术原理

应用场景

------------------------------------------------------------

1. Megatron英伟达

简介

NVIDIA的Megatron-LM与Megatron-Core项目聚焦于大规模训练Transformer模型的GPU优化技术。Megatron-LM是研究型框架,Megatron-Core是GPU优化技术库,具有系统级优化创新和模块化API。项目提供多种模型预训练脚本,支持多类型并行训练,还涉及模型评估、优化与部署等功能。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.ColossalAI

简介

Colossal-AI 是一个统一的深度学习系统,旨在让大 AI 模型训练更便宜、快速且易实现。它提供分布式训练和推理的并行组件,支持多种并行策略和异构内存管理,在多个领域有应用案例,还提供命令行界面和配置工具。

核心功能

技术原理

Colossal-AI 引入统一接口,将顺序代码扩展到分布式环境,支持数据、流水线、张量和序列并行等训练方法,并集成异构训练和零冗余优化器(ZeRO),通过自动并行策略和内存管理技术,提高训练和推理效率。

应用场景

------------------------------------------------------------

1.DeepSpeed-微软

Snipaste<em>2025-07-17</em>19-52-16.png

简介

DeepSpeed是微软推出的开源深度学习优化软件套件,是轻量级PyTorch包装器。它集合分布式训练、推断、压缩等高效模块,旨在提高大规模模型训练的效率和可扩展性,助力训练和推理万亿参数的密集或稀疏模型。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.FairScale-meta

简介

FairScale 是一个由 Facebook Research 开发的 PyTorch 扩展库,旨在为高性能和大规模训练提供支持。它通过扩展 PyTorch 的基本功能,并集成最新的状态级(SOTA)扩展技术,帮助用户更高效地进行深度学习模型的训练。

核心功能

技术原理

FairScale 的核心技术原理在于其对 PyTorch 训练过程的底层优化和高级分布式策略的封装。它通过以下方式实现性能提升和规模扩展:

应用场景

------------------------------------------------------------

1.Horovod

Snipaste<em>2025-07-17</em>19-54-25.png

简介

Horovod 是由 LF AI & Data 基金会托管的分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet 等框架。其目标是让分布式深度学习变得快速且易于使用。

核心功能

技术原理

Horovod 核心原理基于 MPI 概念,如 size、rank、local rank、allreduce、allgather、broadcast 和 alltoall 等。分布式优化器将梯度计算委托给原始优化器,使用 allreduce 或 allgather 对梯度进行平均,然后应用这些平均梯度。

应用场景

------------------------------------------------------------

1.LLaMA-Factory

Snipaste<em>2025-07-17</em>19-55-53.png

简介

主要围绕LLaMA-Factory展开,它是简单易用且高效的大模型训练与微调平台,支持上百种预训练模型,涵盖多种训练算法、运算精度、优化算法等。同时介绍了基于Amazon SageMaker和LlamaFactory构建的一站式无代码模型微调部署平台Model Hub,降低技术门槛,加速AI应用开发。还给出了使用LLaMA-Factory进行Qwen3微调的实战指南。

核心功能

技术原理

应用场景

------------------------------------------------------------

easy-data

简介

Easy Dataset 是专为创建大型语言模型(LLM)微调数据集设计的应用程序,提供直观界面,可上传特定领域文件、智能分割内容、生成问题和高质量训练数据。其生成的结构化数据集兼容遵循 OpenAI 格式的 LLM API,让模型微调简单高效。LLaMA Factory 是开源低代码大模型微调框架,集成多种微调技术,支持零代码微调。

核心功能

  • 文档处理:智能识别处理 PDF、Markdown、DOCX 等格式文件。
  • 文本分割:支持多种智能算法和自定义可视化分段。
  • 问题生成:从文本片段提取相关问题。
  • 标签构建:为数据集构建全局领域标签。
  • 答案生成:用 LLM API 生成答案和思维链。
  • 灵活编辑:可随时编辑问题、答案和数据集。
  • 数据导出:支持多种格式和文件类型导出。
  • 模型兼容:兼容遵循 OpenAI 格式的 LLM API。
  • 自定义提示:可添加自定义系统提示。

技术原理

通过集成多种 LLM API(如 Ollama、OpenAI 等),利用核心库和工具实现文档处理、文本分割、问题与答案生成。借助提示词模板引导模型响应,使用数据库操作管理项目数据。

应用场景

------------------------------------------------------------

1.axolotl 训练框架

简介

Axolotl是一个旨在简化AI模型后训练流程的工具,支持多种主流模型(如LLaMA、Mistral、Mixtral等)及多样化训练方法(全微调、LoRA、QLoRA、QAT、偏好微调、强化学习等),具备易配置(单YAML文件管理全流程)、性能优化(Flash Attention、多GPU训练)、灵活数据集处理(本地/HuggingFace/云存储)及云就绪(Docker镜像/PyPI包)等特性,适用于从基础到高级的模型微调任务。

核心功能

  • 多模型支持:兼容HuggingFace Transformers因果语言模型,覆盖LLaMA、Mistral、Pythia等主流模型。
  • 多样化训练方法:支持全微调、LoRA、QLoRA、GPTQ、QAT(量化感知训练)、偏好微调(DPO/IPO等)、强化学习(GRPO)、多模态训练及奖励模型(RM/PRM)训练。
  • 统一配置管理:通过单YAML文件实现数据集预处理、训练、评估、量化及推理的全流程管理。
  • 性能优化:集成Flash Attention、Xformers、Liger Kernel等计算优化技术,支持多GPU(FSDP/DeepSpeed)、多节点(Torchrun/Ray)训练及序列并行(SP)。
  • 灵活数据加载:支持本地文件、HuggingFace数据集及云存储(S3/Azure/GCP等)的数据集加载。
  • 云适配性:提供Docker镜像及PyPI包,适配云平台与本地硬件环境。

技术原理

Axolotl基于HuggingFace Transformers框架,针对因果语言模型设计后训练流程。技术上集成参数高效微调(PEFT)技术(如LoRA/QLoRA),通过低秩矩阵分解减少可训练参数;采用Flash Attention、Xformers等注意力机制优化技术降低计算复杂度;结合FSDP(完全分片数据并行)、DeepSpeed等分布式训练框架实现多GPU/多节点扩展;支持序列并行(SP)以扩展上下文长度;通过YAML配置文件统一管理数据预处理(如alpaca格式解析)、模型加载(8bit/4bit量化)、训练超参数(学习率/批次大小)及后处理(LoRA权重合并)流程,确保全链路标准化。

应用场景

  • 模型指令微调:基于alpaca等格式数据集,对LLaMA、Mistral等模型进行指令跟随训练。
  • 多模态模型开发:支持图像-文本等多模态数据的联合微调。
  • 奖励模型训练:用于生成式AI的偏好优化(如RM/PRM训练)。
  • 量化模型优化:通过QAT(量化感知训练)提升模型推理效率。
  • 强化学习调优:结合GRPO等强化学习方法优化模型生成质量。
  • 云/本地开发:利用Docker镜像或PyPI包,在云平台或本地GPU环境快速启动训练任务。
  • https://github.com/axolotl-ai-cloud/axolotl
  • https://docs.axolotl.ai/docs/getting-started.html

1.xtuner-书生浦源

简介

XTuner是由InternLM开发的高效、灵活且功能丰富的大模型微调工具包。它支持多种大模型,如InternLM2、Llama 2/3等,能进行连续预训练、指令微调等。在不同时间节点不断增加新功能,支持新模型和训练算法,其输出模型可与部署、评估工具集成。

核心功能

  • 模型支持:支持多种大模型及VLM,适配不同格式数据集。
  • 训练算法:支持QLoRA、LoRA、全参数微调等多种算法。
  • 训练类型:支持连续预训练、指令微调、代理微调。
  • 交互与集成:支持与大模型聊天,输出模型可与部署、评估工具集成。

技术原理

  • 高效性:支持在多种GPU上进行LLM、VLM预训练/微调,自动调度高性能算子,兼容DeepSpeed进行优化。
  • 灵活性:设计良好的数据管道,能适应任何格式数据集,支持多种训练算法。
  • 全功能:通过提供多种配置文件,支持不同类型的训练,并实现与其他工具的无缝集成。

应用场景

------------------------------------------------------------

1.实验监控

简介

MLflow是一个开源平台,旨在帮助机器学习从业者和团队应对机器学习过程的复杂性,专注于机器学习项目的全生命周期,确保各阶段可管理、可追溯和可复现。其核心组件包括实验跟踪、模型打包、模型注册、服务、评估和可观测性等。该平台可在多种环境中运行,如本地开发、Amazon SageMaker、AzureML和Databricks等。由于另一个链接内容获取失败,无法将其相关信息纳入简介。

核心功能

  • 实验跟踪:提供API记录模型、参数和结果,通过交互式UI进行比较。
  • 模型打包:采用标准格式打包模型及其元数据,保证可靠部署和可复现性。
  • 模型注册:集中的模型存储、API和UI,协作管理模型全生命周期。
  • 服务:支持将模型无缝部署到不同平台进行批量和实时评分。
  • 评估:提供自动化模型评估工具,与实验跟踪集成记录性能。
  • 可观测性:与多种GenAI库集成,支持调试和在线监控。

技术原理

MLflow通过一系列API和工具实现其核心功能。在实验跟踪中,利用API记录模型训练过程中的参数和结果,并存储在后端存储中,通过交互式UI展示和比较。模型打包采用标准格式,将模型和元数据封装,确保依赖版本等信息可追溯。模型注册使用集中存储和API管理模型的全生命周期。服务功能借助Docker、Kubernetes等平台的相关技术实现模型部署。评估工具通过自动化脚本计算模型性能指标。可观测性通过与GenAI库的集成和Python SDK实现跟踪和监控。

应用场景

------------------------------------------------------------

SwanLab

Snipaste<em>2025-07-17</em>19-57-08.png

简介

SwanLab是一款开源、现代化设计的深度学习训练跟踪与可视化工具,支持云端/离线使用,适配30+主流AI训练框架。它提供实验跟踪、版本管理、可视化等功能,支持多人协作,可帮助AI开发团队改进模型训练流程。

核心功能

  • 实验跟踪与记录:跟踪训练关键指标,记录超参数、日志、硬件信息等。
  • 可视化:支持折线图、媒体图等多种图表,实时可视化训练进展。
  • 框架集成:与主流AI训练框架轻松集成,只需少量代码即可开始使用。
  • 硬件监控:实时监控CPU和GPU使用情况。
  • 实验对比:通过表格对比不同实验差异,启发实验灵感。
  • 团队协作:支持不同训练师在同一项目跑实验,打通沟通壁垒。
  • 插件拓展:可通过插件扩展功能,如邮件通知、飞书通知等。

技术原理

SwanLab通过Python API嵌入到机器学习pipeline中,收集训练过程中的指标、超参数、日志等数据。它利用自身的可视化引擎将数据以图表形式展示,方便用户分析。同时,支持与多种主流框架集成,借助框架的特性实现分布式训练中的实验记录。在硬件监控方面,通过脚本获取CPU、GPU等硬件的系统级信息。

应用场景

------------------------------------------------------------

1.模型训练-实用技巧

简介

该仓库提供了FlashAttention和FlashAttention - 2的官方实现。FlashAttention可实现快速且内存高效的精确注意力计算,具有IO感知特性;FlashAttention - 2则在此基础上有更好的并行性和工作分区。此外还推出了FlashAttention - 3的beta版本。项目介绍了使用方法、安装要求、不同GPU的支持情况等内容,并给出了性能对比和测试方法。

核心功能

  • 注意力计算:实现缩放点积注意力(scaled dot product attention),支持多种参数设置,如因果掩码、滑动窗口、ALiBi等。
  • 增量解码:通过flashattnwith_kvcache函数支持增量解码,可更新KV缓存。
  • 多查询和分组查询注意力:支持MQA/GQA,可通过设置不同的头数实现。

技术原理

  • IO感知:FlashAttention通过考虑内存输入输出(IO),优化注意力计算过程,减少内存访问,提高计算速度和内存效率。
  • 并行性和工作分区:FlashAttention - 2进一步优化了并行性和工作分区,提升了计算速度。

应用场景

------------------------------------------------------------

1.训练先进算法

简介

主要围绕大语言模型训练中的优化器展开。APOLLO是为大语言模型预训练和全参数微调设计的内存高效优化器,兼具SGD的低内存成本与AdamW的性能;Adam - mini是Adam的精简版,能以少50%的内存实现与AdamW相当或更好的性能;BAdam通过依次解决块坐标优化子问题,在全参数微调时大幅降低内存需求;Muon是用于神经网络隐藏层的优化器,在训练速度和性能上有出色表现。

核心功能

  • APOLLO:在大语言模型训练中,以SGD般的内存成本实现AdamW级别的性能,支持FSDP,集成于多个框架。
  • Adam - mini:减少Adam中学习率资源以降低内存,在多种训练任务中表现优于AdamW。
  • BAdam:通过分块优化,降低大语言模型全参数微调的内存成本,且在MT bench中表现出色。
  • Muon:优化神经网络隐藏层权重,提升训练速度和性能,适用于大规模模型训练。

技术原理

  • APOLLO:结合低秩近似和优化器状态冗余减少,通过纯随机投影在低秩辅助空间近似通道梯度缩放因子。
  • Adam - mini:根据Hessian结构划分参数块,为每个块分配单一学习率,去除Adam中大部分学习率资源。
  • BAdam:顺序解决块坐标优化子问题,在小部分参数上运行Adam更新规则。
  • Muon:针对神经网络隐藏层特点进行优化,具体原理未详细说明。

应用场景

------------------------------------------------------------

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni 是字节跳动Seed团队开源的一款全模态分布式训练框架,基于PyTorch设计。它旨在以模型为中心,加速多模态大型语言模型(LLMs)的开发与训练,并支持任意模态模型的无缝扩展,提供模块化和高效的训练能力。

核心功能

  • 全模态训练支持: 能够高效地进行单模态和多模态模型的预训练与后训练。
  • 分布式并行训练: 灵活支持多种分布式并行策略的组合,优化大规模模型训练效率。
  • 模型计算与并行解耦: 将分布式并行逻辑与模型计算过程解耦,增强了框架的灵活性和可配置性。
  • 高吞吐性能: 能够以高吞吐量进行大规模模型训练,例如可实现每GPU每秒2800+ tokens的MoE模型训练。
  • “积木式”配置: 提供直观且易于配置的“积木式”训练方案,简化复杂分布式策略的部署。

技术原理

VeOmni 的核心技术原理是其模型中心化(Model-Centric)的设计理念和引入的分布式配方库(Distributed Recipe Zoo)。该框架将底层分布式并行策略(如数据并行、模型并行、流水线并行、专家并行等)从上层模型计算逻辑中抽象并解耦。这种架构允许用户像组装积木一样,灵活配置和组合不同的并行方案,以适应不同规模和模态(如文本、图像、音频等)的模型训练需求。基于PyTorch生态,VeOmni能够高效利用GPU资源,并通过优化并行策略,显著提升大规模模型,尤其是全模态MoE模型的训练吞吐量和扩展性。

应用场景

  • 大规模多模态LLM训练: 用于加速和扩展全模态大型语言模型(LLMs)的预训练和微调。
  • 多模态融合模型开发: 为研究人员和开发者提供高效平台,探索和构建涉及图像、文本、语音等多种模态融合的模型。
  • 高性能计算集群应用: 适用于需要在大规模计算集群上进行高效分布式训练的企业和研究机构。
  • 前沿AI模型研究: 便于AI研究人员实验和验证复杂的分布式训练策略对新型模型架构的性能影响。
  • GitHub仓库:https://github.com/ByteDance-Seed/VeOmni
  • arXiv技术论文:https://arxiv.org/pdf/2508.02317

2.Firefly

简介

Firefly是开源大模型训练项目,支持对Qwen2、Llama3等主流大模型进行预训练、指令微调和DPO,提供全量参数训练、LoRA、QLoRA高效训练方式,还整理开源了指令微调数据集及模型权重。

核心功能

  • 支持多种主流大模型的预训练、指令微调和DPO。
  • 提供全量参数训练、LoRA、QLoRA等训练方式。
  • 支持使用Unsloth加速训练并节省显存。
  • 整理并开源指令微调数据集。
  • 开源Firefly系列指令微调模型权重。

技术原理

  • 预训练采用经典自回归损失,每个位置token参与loss计算;指令微调仅计算assistant回复部分的loss。
  • 利用LoRA、QLoRA等技术实现高效训练,减少参数量和显存占用。
  • 通过配置文件管理训练参数,方便扩展和优化。

应用场景

------------------------------------------------------------

2.MMEngine

简介

MMEngine 是基于 PyTorch 的深度学习模型训练基础库,作为 OpenMMLab 所有代码库的训练引擎,支持各研究领域的数百种算法,也可应用于非 OpenMMLab 项目。它集成主流大模型训练框架,支持多种训练策略,提供友好配置系统,涵盖主流训练监控平台。

核心功能

  • 集成 ColossalAI、DeepSpeed、FSDP 等主流大模型训练框架。
  • 支持混合精度训练、梯度累积、梯度检查点等多种训练策略。
  • 提供纯 Python 风格和支持 JSON、YAML 的纯文本风格配置系统。
  • 覆盖 TensorBoard、WandB、MLflow 等主流训练监控平台。

技术原理

基于 PyTorch 构建,通过集成大模型训练框架,利用其分布式训练、模型并行等特性提升训练效率。采用配置系统管理训练参数,支持多种格式配置文件,方便用户灵活配置。借助训练监控平台,实时记录和展示训练过程中的各项指标。

应用场景

------------------------------------------------------------

2.fastAI

简介

Fastai是一个开源的深度学习库,旨在通过提供高层组件,使深度学习实践者能够快速便捷地在标准深度学习领域获得最先进(State-of-the-Art, SOTA)的结果。同时,它也为研究人员提供了灵活的低层组件,便于混合和匹配以探索和构建新的深度学习方法,且在易用性、灵活性和性能之间取得了良好的平衡。

核心功能

  • 高层API与快速部署: 提供简洁高效的高层API,简化了深度学习模型的训练、验证和部署流程,使非专业人士也能快速上手。
  • 低层可组合性: 允许用户访问和定制底层组件,为深度学习研究和高级用例提供高度灵活性。
  • SOTA模型实现: 封装了多种领域的最新深度学习实践,帮助用户在视觉、文本、表格数据和协同过滤等任务中达到领先性能。
  • 数据处理管道: 内置强大的数据加载和预处理工具,支持高效的数据集管理和增强。
  • 训练与评估工具: 提供一整套模型训练、回调函数、学习率查找器等工具,优化训练过程并便于性能评估。

技术原理

Fastai库采用分层架构设计,构建于PyTorch等主流深度学习框架之上,实现了从高层抽象到底层细节的逐步揭示。其核心原理包括:
  • 渐进式学习(Progressive Disclosure): 允许用户从简单的API开始,随着理解深入逐步掌握更复杂的底层控制。
  • 回调系统(Callback System): 提供灵活的回调机制,允许用户在训练周期的不同阶段插入自定义逻辑,如保存模型、调整学习率、实现早停等。
  • 批处理转换与数据增强: 利用高效的数据管道和转换机制,在GPU上实时进行数据增强和预处理,提高训练效率。
  • 迁移学习优化: 深度集成和优化了迁移学习技术,尤其是在自然语言处理和计算机视觉领域,使得在小数据集上也能取得优异表现。

应用场景

  • 计算机视觉: 图像分类、目标检测、图像分割等任务的快速开发与SOTA模型训练。
  • 自然语言处理: 文本分类、情感分析、语言模型训练和文本生成,特别是利用预训练模型进行迁移学习。
  • 表格数据分析: 处理结构化数据,进行分类和回归任务。
  • 深度学习教育与研究: 作为实践和教学深度学习的工具,帮助学生和研究人员快速验证新的想法和技术。
  • 快速原型开发: 适用于企业和开发者需要快速构建和迭代深度学习解决方案的场景。
  • fastai/fastai: The fastai deep learning library

------------------------------------------------------------

3.openai-在线微调

简介

主要围绕OpenAI微调模型展开。介绍了OpenAI提供线上微调GPT模型的功能,是学习微调的快速入门方式。包含微调概念、准备与上传数据、训练微调模型及使用微调模型等步骤,还给出使用微调模型进行多轮对话和流式输出的代码示例,同时展示了OpenAI开发者平台的快速入门及API请求示例。

核心功能

  • 模型微调:通过额外训练微量数据集调整GPT模型输出,具有高质量回答、节省Token、降低延迟等优点。
  • 数据处理:支持三种数据格式,可检查数据格式以保障训练效果。
  • 模型训练:可在网站手动或用代码本地训练,训练时间因模型和样本量级而异。
  • 模型使用:简单替换模型名称即可在多轮对话中使用微调模型。
  • API调用:可通过API进行请求获取模型响应。

技术原理

基于GPT模型,通过额外训练特定数据集,调整模型参数以改变输出结果。在数据处理上,需遵循特定格式要求,确保训练样本格式正确以保证训练效果。训练过程中,根据所选模型和训练样本量级,模型进行参数调整和优化。

应用场景

------------------------------------------------------------

⬆ 返回README目录

⬆ Back to Contents