2.LLM训练推理加速框架+部署

2.LLM训练推理加速框架+部署

LLM推理框架+部署模块打造了全方位的大模型推理加速与部署生态,整合21+高性能推理引擎和部署平台。顶级加速框架vLLM伯克利(业界标杆)、SGLang(超越TensorRT-LLM性能)、LMDeploy书生(工业级部署)、DeepSpeed-MII(微软推理优化)等。便捷部署工具Ollama(本地模型管理)、LM Studio(图形化界面)、FastChat+vLLM(分布式服务)、Xinference(多模型统一接口)、OpenLLM(云端部署)等。API网关服务LiteLLM(100+ LLM APIs统一格式)、One-API(接口管理分发)、Xi-API等。托管平台包括Together AIReplicateSiliconFlow硅基流动等。配套Huggingface Acceleratellama-cpp-python等底层加速库,以及Jan.aiLocalAItext-generation-webui等用户友好界面,实现从本地部署到云端服务的全场景覆盖。

-----------------------------------------------------------

0.FastChat-分布式部署不加速,需要配合vllm

简介

FastChat是一个开放平台,用于训练、服务和评估基于大型语言模型的聊天机器人。它为Chatbot Arena提供支持,可处理大量聊天请求并编制在线LLM Elo排行榜。网上较成熟的Langchain - Chatchat项目也基于FastChat对接大模型。该项目可解决部分无OpenAI类似API接口大模型的部署问题。

核心功能

技术原理

文中未明确提及具体技术原理,但涉及到启动controller、modelworker(包括普通模式和vllm模式)和openaiapiserver等组件协同工作。controller负责请求调度,modelworker负责加载和运行模型,openaiapiserver提供OpenAI兼容的API服务。

应用场景

------------------------------------------------------------

0.LM Studio

简介

LM Studio是一款可用于发现、下载和运行本地大语言模型(LLM)的桌面应用程序。它支持多种架构模型,可离线运行,保护用户数据隐私。0.3.0版本对功能进行了改进、深化和简化,新增了与文档交互、OpenAI 结构化输出 API 支持等功能。

0.3.0-screen.png

核心功能

技术原理

应用场景

------------------------------------------------------------

0.OpenLLM

简介

OpenLLM 让开发者能通过单个命令将开源大语言模型(如 Llama 3.3、Qwen2.5 等)或自定义模型作为兼容 OpenAI 的 API 运行。它具有内置聊天 UI、先进推理后端,支持通过 Docker、Kubernetes 和 BentoCloud 进行企业级云部署。openllm - models 是 OpenLLM 的默认模型仓库,提供多种模型版本及相关信息,也支持添加自定义模型仓库。

核心功能

技术原理

OpenLLM 借助 BentoML 进行生产级模型服务,利用 vllm - project/vllm 作为生产级 LLM 后端,以实现高效推理。其将模型封装为 Bento,利用 BentoML 管理和部署模型,通过提供 OpenAI 兼容 API,方便用户使用不同框架和工具与之交互。

应用场景

------------------------------------------------------------

0.Xorbits Inference:模型推理

简介

Xorbits Inference(Xinference)是一个强大且通用的分布式推理框架,用于服务语言、语音识别和多模态模型。用户能通过单个命令轻松部署自己的或内置的前沿模型,支持在云、本地甚至笔记本电脑上运行推理,为研究者、开发者和数据科学家提供便利。

核心功能

技术原理

运用 Xinference 团队维护的新 llama.cpp Python 绑定 Xllamacpp 支持连续批处理;采用分布式推理技术让模型跨工作节点运行;增强 VLLM 实现多个副本间共享 KV 缓存;支持 Transformers 引擎的连续批处理;支持苹果硅芯片的 MLX 后端等。通过这些技术优化模型推理过程,提升性能和效率。

应用场景

------------------------------------------------------------

issue

------------------------------------------------------------

0.litellm

简介

LiteLLM是一个可调用100多个大语言模型(LLMs)的工具,支持以OpenAI的输入/输出格式调用,能将输入转换为不同提供商的端点,具有重试/回退逻辑、花费跟踪和预算设置等功能,可通过代理服务器或Python SDK使用。

核心功能

技术原理

通过将用户输入的OpenAI格式请求,根据不同大语言模型提供商的接口规范进行转换,发送到相应的完成、嵌入和图像生成等端点,接收响应后统一为OpenAI格式输出。同时,在请求失败时按预设逻辑进行重试或切换部署,利用预定义回调函数实现日志记录和花费跟踪。

应用场景

------------------------------------------------------------

0.ollama

简介

Ollama是一个轻量级、可扩展的框架,用于在本地机器上构建和运行语言模型。它提供简单API来创建、运行和管理模型,其官网的模型库包含DeepSeek - R1、Gemma 3、Qwen3等多种模型,支持多模态模型使用,还有丰富的社区集成和工具。

Snipaste<em>2025-07-19</em>14-04-20.png

核心功能

技术原理

Ollama基于llama.cpp等项目,利用Go语言开发。在模型运行上,支持多种大语言模型架构,通过Modelfile配置模型参数和系统消息;在交互方面,通过API与模型通信,实现对话、推理等功能;在数据处理上,支持多模态数据输入,利用相关算法进行解析和处理。

应用场景

------------------------------------------------------------

0.one-api|Xi-api

简介

主要涉及两个项目相关内容。一是 One API,它是一个大语言模型(LLM)API 管理与分发系统,版本为 v0.6.11-preview.6,支持多种登录方式,当前有官方演示站但不对外服务;二是 xi-ai,使用标准 OpenAI 接口协议,支持 280 + 模型,具备按量计费、极速对话、明细透明等特点。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.Jan.ai

简介

Jan是一个开源的ChatGPT替代方案,旨在实现在用户本地计算机上100%离线运行大型语言模型(LLMs)。它致力于将任何个人电脑转变为一个AI计算平台,提供高度隐私和控制的用户体验。

核心功能

技术原理

Jan的核心技术原理在于其对多种高性能AI推理引擎的集成和封装,以实现本地化、高效的LLM运行。

应用场景

------------------------------------------------------------

1.LocalAI

简介

LocalAI 是免费开源的 OpenAI 替代方案,作为本地推理的 REST API,可实现本地运行大语言模型、生成图像和音频等功能,支持多种模型架构,能在消费级硬件上运行,可本地或内部部署。

Snipaste<em>2025-07-19</em>14-05-01.png

核心功能

技术原理

LocalAI 基于多种开源库实现功能,如使用 llama.cppgpt4all.cpp 进行文本生成,whisper.cpp 进行音频转录,Stable Diffusion 进行图像生成等。它通过兼容 OpenAI 的 API 规范,实现与现有系统的无缝对接。

应用场景

------------------------------------------------------------

1.Replicate大模型托管平台

简介

Replicate 是一个可通过 API 运行 AI 的平台。平台提供数千个模型,支持运行、微调模型及部署自定义模型。有文本嵌入、图像嵌入、多模态嵌入等多种嵌入模型,可用于搜索、推荐和聚类;还有语言模型,可用于对话、问答、文本生成等任务。

核心功能

技术原理

Replicate 利用 Cog 这一开源工具对机器学习模型进行打包,生成 API 服务器并部署到云端集群。在模型运行方面,对于嵌入模型,如 Multilingual E5、CLIP、ImageBind 等,通过生成向量表示来捕获文本、图像等的语义信息;语言模型则通过大规模数据训练,理解和生成自然语言。

应用场景

------------------------------------------------------------

1.SiliconFlow (北京硅基流动)

简介

硅基流动是高速推理的一站式AI云服务平台,拥有全场景产品矩阵,可支撑AI应用全流程落地。平台提供开箱即用的大模型API、模型微调与部署托管服务、高效能模型推理加速服务及私有化部署方案,还具有多模态模型能力,覆盖多场景。

核心功能

技术原理

依托核心推理加速引擎,对模型性能进行优化,针对不同类型模型(如语言、生图、语音等)进行针对性加速,以实现高速推理和高性价比。

应用场景

------------------------------------------------------------

1.text-generation-webui

简介

Text generation web UI 是一个基于 Gradio 的大语言模型 Web 界面,旨在成为文本生成领域的 stable-diffusion-webui。它支持多种本地文本生成后端,具有离线、隐私保护、功能丰富等特点。

核心功能

技术原理

该项目基于 Gradio 构建 Web 界面,利用多种文本生成后端技术,如 llama.cpp 用于高效推理、Transformers 进行模型加载和生成、ExLlamaV3 实现高性能计算。通过自动提示格式化(Jinja2 模板)简化用户输入,使用采样参数和生成选项控制文本生成过程。在模型加载方面,支持多种精度(如 4 位、8 位、bf16)和加速技术(如 Flash Attention 2、torch.compile)以提高性能。

应用场景

------------------------------------------------------------

2.DeepSpeed-MII

简介

DeepSpeed 是一个易于使用的深度学习优化软件套件,为训练和推理提供前所未有的规模和速度。它助力了 MT - 530B 和 BLOOM 等强大语言模型,涵盖训练、推理、压缩等功能支柱,还有面向科学领域的 DeepSpeed4Science 计划。同时,其 MII 项目让数据科学家轻松实现低延迟、高吞吐量推理。

核心功能

技术原理

应用场景

------------------------------------------------------------

2.SGLang

简介

SGLang 是用于大语言模型和视觉语言模型的高性能服务框架,通过后端运行时和前端语言协同设计,使与模型的交互更快、更可控。它获 a16z 第三批开源人工智能资助,在生产环境中每日处理数万亿 token,被众多企业和机构采用。

核心功能

技术原理

SGLang 借鉴多个开源大语言模型服务引擎的设计,利用 FlashInfer 的高性能注意力 CUDA 内核,集成受 gpt - fast 启发的 torch.compile。还引入 RadixAttention 实现自动 KV 缓存重用,以及压缩状态机实现快速约束解码,其批调度器用 Python 实现,扩展性好。

应用场景

------------------------------------------------------------

2.fluxgym

简介

Flux Gym是一个用于训练FLUX LoRA的简易Web UI,支持低显存(12GB/16GB/20GB)。前端基于AI - Toolkit的WebUI,后端由Kohya脚本驱动,通过高级选项卡支持Kohya sd - scripts的全部功能。支持多种模型,模型在训练时自动下载,可通过编辑models.yaml文件添加更多模型。

核心功能

技术原理

前端采用Gradio UI,后端使用Kohya脚本进行训练。通过解析Kohya sd - scripts的启动标志自动构建高级选项卡,实现对脚本的全面控制。利用Docker支持容器化部署,可自动下载模型,支持通过编辑配置文件扩展支持的模型列表。

应用场景

------------------------------------------------------------

2.huggingface-accelerate

简介

Hugging Face的Accelerate库专为PyTorch用户设计,可让用户在不改变大部分代码的情况下,将标准PyTorch训练脚本运行在各种单节点或分布式节点设置上,支持CPU、GPU、TPU及混合精度训练。

核心功能

技术原理

Accelerate抽象了与多GPU、TPU、混合精度训练相关的样板代码,通过 Accelerator 类处理设备放置、梯度反向传播等操作。用户可通过 accelerate config 配置训练环境,也可在代码中使用插件(如 DeepSpeedPlugin)进行更细致的设置。

应用场景

------------------------------------------------------------

2.llama-cpp-python

简介

llama-cpp-pythonllama.cpp 库的 Python 绑定包,提供低级别 C API 访问、高级 Python API、OpenAI 兼容 API、与 LangChain 和 LlamaIndex 兼容等功能。支持多种硬件加速后端,可用于文本完成、聊天完成、生成嵌入等任务。

核心功能

技术原理

应用场景

------------------------------------------------------------

2.lmdeploy-书生浦源

简介

LMDeploy 是由 MMRazor 和 MMDeploy 团队开发的用于大语言模型(LLM)压缩、部署和服务的工具包。具备高效推理、有效量化、轻松部署分布式服务器、交互式推理模式和优秀兼容性等核心特性,支持多种大语言模型和视觉语言模型。

核心功能

技术原理

LMDeploy 通过引入持久批处理、分块 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 内核等技术实现高效推理;支持权重和 K/V 量化,通过 OpenCompass 评估确保量化质量;利用请求分发服务实现多机多卡的多模型服务部署;在多轮对话中缓存注意力的 K/V 来记住对话历史。

应用场景

------------------------------------------------------------

2.vLLM-伯克利加速库

简介

vLLM 是一个用于大语言模型推理和服务的高效库,具有高吞吐量和内存效率的特点。它能与众多流行的 Hugging Face 模型无缝集成,支持 NVIDIA 和 AMD GPU,提供了灵活且易用的大语言模型推理和服务解决方案。

核心功能

技术原理

应用场景

GPUStack是一个开源的GPU集群管理器

GPUStack是一个开源的GPU集群管理器,专为AI模型运行而设计。它提供广泛的硬件兼容性,支持在Apple MacBook、Windows PC和Linux等多种操作系统上运行不同品牌的GPU,旨在简化AI工作负载的GPU资源管理。

核心功能

技术原理

GPUStack的核心技术原理围绕着异构计算资源管理分布式系统调度。它可能采用容器化技术(如Docker或Kubernetes)来封装AI应用及其依赖,实现环境隔离和可移植性。通过资源抽象层实现对不同GPU硬件(NVIDIA、AMD等)的统一管理和调度,屏蔽底层硬件差异。其集群管理能力可能基于微服务架构,通过API接口进行资源申请、任务提交和状态监控,实现GPU资源的动态分配和回收,确保AI工作负载的高效运行和资源利用率最大化。

应用场景

xLLM – 京东智能推理框架

xLLM 是京东开源的一款高效智能推理框架,专门为大语言模型(LLM)的推理优化设计。该框架致力于提升推理性能,并针对国产芯片进行深度优化,支持端云一体化部署,旨在为各种LLM应用提供稳定、高效的推理服务。其核心采用服务-引擎分离架构,将请求调度与容错等服务逻辑与运算优化等引擎逻辑解耦。

核心功能

技术原理

xLLM 的技术原理围绕其服务-引擎分离架构及一系列优化机制展开:

应用场景

------------------------------------------------------------

⬆ 返回README目录 ⬆ Back to Contents