LLM合集-语言

LLM合集-语言

LLM合集-语言模块构建了涵盖50+个主流语言大模型的完整技术生态图谱,为AI开发者提供全方位的语言模型选型和应用指南。该模块系统性地整理了OpenAI GPT系列、Anthropic Claude系列、Google Gemini/PaLM系列、Meta LLaMA系列等国际顶级模型,以及阿里通义千问、百度文心一言、腾讯混元、字节豆包、智谱ChatGLM、月之暗面Kimi、零一万物Yi、面壁智能CPM、清华ChatGLM等国产优秀模型。技术特色涵盖了从7B到175B+参数规模的多样化模型架构,详细解析了Transformer、Mamba、Mixture of Experts等前沿技术路线,以及指令微调、人类反馈强化学习、思维链推理等核心训练技术。

模块深入介绍了各模型在文本生成、代码编写、数学推理、多语言理解、长文本处理等核心能力维度的表现特点,以及API调用、本地部署、模型微调、推理优化等工程化实践方案。内容还包括开源模型生态(Hugging Face、ModelScope、OpenBMB)、商业模型服务(OpenAI API、Claude API、文心千帆)、模型评测基准、性能对比分析等实用信息,以及最新模型发布、技术突破、应用案例等前沿动态,帮助开发者在丰富的语言模型生态中找到最适合的技术方案,构建高质量的自然语言处理应用。

📋 目录

1.豆包

1.谷歌gemini

gpt-oss – OpenAI开源的推理模型系列

GPT-OSS是由OpenAI推出的首个开源大语言模型系列,包含gpt-oss-120b和gpt-oss-20b两个版本。这些模型采用开放权重(open-weight)形式,并遵循Apache 2.0许可协议发布,旨在以低成本提供高性能和强大的推理能力,支持本地部署和自定义微调。其发布代表了OpenAI在开源模型领域迈出的重要一步,以促进AI研究、创新和更透明的AI发展。

chart.png

chart (1).png

核心功能

GPT-OSS模型具备卓越的推理能力、工具使用能力和指令遵循能力。它们采用思维链(Chain-of-Thought, CoT)推理方法,能够分步骤解答复杂问题,并支持浏览网页、调用云端模型、执行代码以及作为AI代理进行软件导航等高级功能。这些模型是文本专用型,但针对消费级硬件进行了优化,以实现高效部署和低延迟推理。

技术原理

GPT-OSS模型是基于GPT-2和GPT-3架构的自回归MoE(Mixture-of-Experts)Transformer模型。gpt-oss-120b包含36层(116.8B总参数),gpt-oss-20b包含24层(20.9B总参数)。模型在每个注意力块和MoE块之前应用均方根归一化(RMS Norm),并采用Pre-LN(Layer Normalization)放置。训练结合了强化学习和OpenAI内部先进技术,并进行了全面的安全训练,包括预训练阶段的有害数据过滤(如CBRN相关),以及通过审慎对齐和指令层级机制来拒绝不安全提示和防御提示注入。

应用场景

GPT-OSS模型适用于加速前沿AI研究、促进AI技术创新以及实现更安全透明的AI开发。由于其支持本地部署和在消费级硬件上运行,开发者和企业可以获得对延迟、成本和隐私的完全控制。这使得GPT-OSS非常适合需要高性能推理、精细化控制和私有化部署的各类场景,例如:开发定制化AI应用、模型微调、教育研究、探索AI代理能力以及需要避免API限制的场景。 gpt-oss的项目地址

1.通义千问Qwen

1.字节扣子coze

Seed-OSS – 字节开源大模型

Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型。该模型系列旨在提供强大的长上下文处理、推理、智能体和通用能力,并具备友好的开发者特性。尽管仅使用 12T tokens 进行训练,Seed-OSS 在多项流行公开基准测试中展现出卓越性能,并以 Apache-2.0 许可证向开源社区发布,主要针对国际化(i18n)用例进行了优化。

seed-oss.png

核心功能

技术原理

Seed-OSS 采用流行的因果语言模型架构,并集成了多项先进技术以优化性能和效率:

应用场景

1.anthropic

1.DeepSeek:杭州深度求索

2.腾讯混元大模型

生成3D模型

生成视频

生成图像

生文

2.文心千帆

2.智谱清言ChatGLM

AutoGLM

GLM-4.5 –SOTA 模型

简介

GLM-4.5是智谱AI(Z.ai)推出的一款新一代旗舰级开源大模型,旨在原生融合推理、代码和智能体(Agent)能力,是业界首款专注于智能体应用的SOTA模型。它在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。

智谱.png

核心功能

技术原理

GLM-4.5采用先进的混合专家(MoE)架构,通过激活部分专家模型来高效处理任务。例如,GLM-4.5拥有3550亿总参数和320亿激活参数,而GLM-4.5-Air则更为紧凑,拥有1060亿总参数和120亿激活参数。模型在参数效率上实现了显著优化,在保持高性能的同时,参数量远低于同级别模型。其技术栈支持深度思考(Deep Thinking)、流式输出(Streaming Output)、函数调用(Function Call)、上下文缓存(Context Caching)和结构化输出(Structured Output)等高级功能,提升了模型的实用性和集成能力。

应用场景

体验地址:

2.Grok

2.Mistral AI

3.书生浦源

chat模型

VL多模态模型

3.Skywork天工

[Skywork天工-R1V]https://github.com/SkyworkAI/Skywork-R1V

[Skywork天工-SkyReels-V2]https://github.com/SkyworkAI/SkyReels-V2

[Skywork天工-SkyReels-V1]https://github.com/SkyworkAI/SkyReels-V1

Skywork MindLink – 昆仑万维开源的推理大模型

简介

MindLink是由昆仑万维(Kunlun Inc.)SkyworkAI团队开发的一系列大型语言模型。这些模型基于Qwen架构,并融合了最新的后训练技术,旨在提供在多种AI场景中表现卓越的通用能力。MindLink系列模型目前包含32B和72B等不同参数规模的版本,支持长达128K的上下文长度。

核心功能

技术原理

MindLink模型基于Qwen架构进行开发,并在此基础上集成了SkyworkAI团队在后训练(Post-training)方面的最新进展。这意味着模型在基础预训练之后,通过特定的微调、指令跟随或强化学习等技术进一步提升了其性能和泛化能力。其支持的128K上下文长度表明模型采用了高效的注意力机制或位置编码技术,使其能够处理远超传统模型的长序列输入,从而更好地理解复杂语境和长文本信息。模型在Hugging Face上提供不同量化版本的下载,暗示其在部署和效率方面也进行了优化,以适应不同的硬件环境。

应用场景

Skywork MindLink的项目地址

* MindLink-32B:https://huggingface.co/Skywork/MindLink-32B-0801 * MindLink-72B:https://huggingface.co/Skywork/MindLink-72B-0801

3.月之暗面moonshot

3.科大讯飞

3.百川大模型

3.面壁智能miniCPM

3小红书dots.llm1

3.Llama-meta

3.minimaxi

3.YI零一万物

3.360智脑

3.硅基流动siliconflow

3.阶跃星辰

3.Blue LM蓝心大模型

3.序列猴子

3.紫东太初

3.智源AI-悟道

XBai o4 大模型

XBai o4 是由 MetaStone AI(问小白)开发并开源的第四代大语言模型,专注于提升复杂推理能力。该模型已在GitHub和Hugging Face上发布,旨在促进AI技术的透明度和协作。XBai o4在复杂推理任务中表现出色,其性能在某些基准测试中甚至超越了OpenAI-o3-mini和Anthropic的Claude Opus,是开源AI领域的重要进展。

image.png

核心功能

XBai o4 的核心功能在于其强大的深度推理能力和高质量推理轨迹选择。它能够同时实现深入的逻辑推理和选择最优的推理路径,从而提供更快且更高质量的响应。通过优化推理成本,特别是在策略奖励模型(PRMs)上的显著降低,XBai o4展现了卓越的效率。

技术原理

XBai o4 基于其独创的“反思性生成形式”(reflective generative form)进行训练,该形式将“长链思维强化学习”(Long-CoT Reinforcement Learning)与“过程奖励学习”(Process Reward Learning)融合到一个统一的训练框架中。此外,通过在PRMs和策略模型之间共享骨干网络,该模型显著降低了PRMs的推理成本,提升了推理效率和质量。

应用场景

XBai o4 作为一款高性能的开源推理模型,预计将在多个领域发挥重要作用。其主要应用场景包括:

美团 LongCat-Flash-Chat

美团正式发布并开源 LongCat - Flash - Chat。该模型采用创新性混合专家模型架构,实现计算效率与性能双重优化,推理速度快,适合复杂智能体应用。在多领域基准测试中表现优异,还提供两种高效部署方案,已在 Github、Hugging Face 平台开源。

核心功能

技术原理

应用场景

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

Ling-V2 是蚂蚁百灵团队(Ant Bailei Team)与InclusionAI共同开发并开源的大型语言模型家族,其核心特点是采用了稀疏激活的MoE(Mixture-of-Experts)架构。其中首个版本Ling-mini-2.0拥有160亿总参数量,但在每个输入标记处理时仅激活14亿参数,实现了高效的推理性能。

核心功能

Ling-V2作为大型语言模型,主要功能包括但不限于:

技术原理

Ling-V2的核心技术原理是Mixture-of-Experts (MoE) 架构。该架构通过以下机制实现高效能和高效率:

应用场景

基于其强大的语言处理能力和高效的MoE架构,Ling-V2可广泛应用于:

Qwen3Guard – 阿里安全防护模型

Qwen3Guard是由阿里巴巴通义千问团队推出的一个针对大语言模型(LLM)安全性的Guard模型。它旨在识别、过滤并纠正LLM生成内容中的不安全、有害或偏见信息,确保LLM在复杂交互中输出安全、合规且负责任的内容。Qwen3Guard不仅是一个文本安全模型,更是一个可部署、可定制的守护系统,以应对日益增长的LLM滥用风险,是LLM部署安全防护的重要组成部分。

pVIJGvt.png

核心功能

技术原理

Qwen3Guard采用基于Transformer架构的预训练语言模型,结合了监督学习(Supervised Learning)和强化学习(Reinforcement Learning)技术进行训练和微调。其核心技术包括:

应用场景

Qwen3-VL

Qwen3-VL是阿里云通义团队推出的Qwen系列中最强大的视觉语言模型(Vision-Language Model, VLM),旨在提供卓越的多模态能力。它代表了该系列在视觉理解方面的重要升级,同时保持了强大的纯文本处理能力,并已通过开源方式向全球开发者开放。

pVIJtDf.jpg

核心功能

技术原理

Qwen3-VL基于多模态大语言模型(Multimodal Large Language Model, MLLM)架构,深度融合了视觉编码器和语言解码器,实现跨模态信息的有效对齐与理解。模型通过在大规模多模态数据集上进行预训练,习得对图像、视频内容及其与文本描述之间复杂关联的深层语义表征。其技术创新在于全面提升了视觉理解能力,例如在目标识别、场景理解和视觉问答等任务上表现出色,同时确保了其在传统自然语言处理任务上的高性能。模型开放源代码,支持开发者进行部署与二次开发。

Audio2Face – 英伟达AI面部动画生成模型

NVIDIA Audio2Face 是一款由NVIDIA开发的AI驱动工具,其核心功能是能够根据音频输入自动生成逼真且富有表现力的3D虚拟角色面部动画。该技术已由NVIDIA开源,旨在加速AI驱动的虚拟形象在游戏、3D应用及其他领域中的普及和应用。

pVIJaVS.webp

核心功能

技术原理

NVIDIA Audio2Face 技术基于深度学习模型,特别是循环神经网络 (RNN) 和生成对抗网络 (GAN) 等架构。它首先对输入的音频信号进行声学特征提取,识别出音素(phonemes)、语调(intonation)和潜在的情感(emotion)信息。随后,这些音频特征被映射到预训练的3D面部模型上。模型通过驱动面部骨骼(skeletal animation)或混合形状(blendshapes)来生成对应的面部姿态、肌肉运动和口型变化。NVIDIA的GPU加速计算能力,特别是RTX技术,为模型的实时推理和动画渲染提供了强大的性能支持。开源模式也促进了社区对模型优化和功能扩展的贡献。

应用场景

⬆ 返回README目录 ⬆ Back to Contents