LLM合集-语言

LLM合集-语言

LLM合集-语言模块构建了涵盖50+个主流语言大模型的完整技术生态图谱,为AI开发者提供全方位的语言模型选型和应用指南。该模块系统性地整理了OpenAI GPT系列、Anthropic Claude系列、Google Gemini/PaLM系列、Meta LLaMA系列等国际顶级模型,以及阿里通义千问、百度文心一言、腾讯混元、字节豆包、智谱ChatGLM、月之暗面Kimi、零一万物Yi、面壁智能CPM、清华ChatGLM等国产优秀模型。技术特色涵盖了从7B到175B+参数规模的多样化模型架构,详细解析了Transformer、Mamba、Mixture of Experts等前沿技术路线,以及指令微调、人类反馈强化学习、思维链推理等核心训练技术。

模块深入介绍了各模型在文本生成、代码编写、数学推理、多语言理解、长文本处理等核心能力维度的表现特点,以及API调用、本地部署、模型微调、推理优化等工程化实践方案。内容还包括开源模型生态(Hugging Face、ModelScope、OpenBMB)、商业模型服务(OpenAI API、Claude API、文心千帆)、模型评测基准、性能对比分析等实用信息,以及最新模型发布、技术突破、应用案例等前沿动态,帮助开发者在丰富的语言模型生态中找到最适合的技术方案,构建高质量的自然语言处理应用。

📋 目录

1.豆包

1.谷歌gemini

gpt-oss – OpenAI开源的推理模型系列

GPT-OSS是由OpenAI推出的首个开源大语言模型系列,包含gpt-oss-120b和gpt-oss-20b两个版本。这些模型采用开放权重(open-weight)形式,并遵循Apache 2.0许可协议发布,旨在以低成本提供高性能和强大的推理能力,支持本地部署和自定义微调。其发布代表了OpenAI在开源模型领域迈出的重要一步,以促进AI研究、创新和更透明的AI发展。

chart.png

chart (1).png

核心功能

GPT-OSS模型具备卓越的推理能力、工具使用能力和指令遵循能力。它们采用思维链(Chain-of-Thought, CoT)推理方法,能够分步骤解答复杂问题,并支持浏览网页、调用云端模型、执行代码以及作为AI代理进行软件导航等高级功能。这些模型是文本专用型,但针对消费级硬件进行了优化,以实现高效部署和低延迟推理。

技术原理

GPT-OSS模型是基于GPT-2和GPT-3架构的自回归MoE(Mixture-of-Experts)Transformer模型。gpt-oss-120b包含36层(116.8B总参数),gpt-oss-20b包含24层(20.9B总参数)。模型在每个注意力块和MoE块之前应用均方根归一化(RMS Norm),并采用Pre-LN(Layer Normalization)放置。训练结合了强化学习和OpenAI内部先进技术,并进行了全面的安全训练,包括预训练阶段的有害数据过滤(如CBRN相关),以及通过审慎对齐和指令层级机制来拒绝不安全提示和防御提示注入。

应用场景

GPT-OSS模型适用于加速前沿AI研究、促进AI技术创新以及实现更安全透明的AI开发。由于其支持本地部署和在消费级硬件上运行,开发者和企业可以获得对延迟、成本和隐私的完全控制。这使得GPT-OSS非常适合需要高性能推理、精细化控制和私有化部署的各类场景,例如:开发定制化AI应用、模型微调、教育研究、探索AI代理能力以及需要避免API限制的场景。 gpt-oss的项目地址

1.通义千问Qwen

1.字节扣子coze

Seed-OSS – 字节开源大模型

Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型。该模型系列旨在提供强大的长上下文处理、推理、智能体和通用能力,并具备友好的开发者特性。尽管仅使用 12T tokens 进行训练,Seed-OSS 在多项流行公开基准测试中展现出卓越性能,并以 Apache-2.0 许可证向开源社区发布,主要针对国际化(i18n)用例进行了优化。

seed-oss.png

核心功能

技术原理

Seed-OSS 采用流行的因果语言模型架构,并集成了多项先进技术以优化性能和效率:

应用场景

1.anthropic

1.DeepSeek:杭州深度求索

2.腾讯混元大模型

生成3D模型

生成视频

生成图像

生文

2.文心千帆

2.智谱清言ChatGLM

AutoGLM

GLM-4.5 –SOTA 模型

简介

GLM-4.5是智谱AI(Z.ai)推出的一款新一代旗舰级开源大模型,旨在原生融合推理、代码和智能体(Agent)能力,是业界首款专注于智能体应用的SOTA模型。它在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。

智谱.png

核心功能

  • 推理能力: 提供强大的逻辑推理能力,能够处理复杂任务并进行深度思考。
  • 代码生成与理解: 具备出色的代码智能,支持代码的生成、理解、调试和优化。
  • 智能体能力: 专为构建和驱动智能体设计,能够作为核心驱动力,实现自主规划与执行。
  • 多版本支持: 包含GLM-4.5(3550亿参数)和GLM-4.5-Air(1060亿参数)等版本,兼顾性能与效率。
  • 混合推理模式: 支持“思考模式”和“非思考模式”,以适应复杂任务与即时响应的不同需求。

技术原理

GLM-4.5采用先进的混合专家(MoE)架构,通过激活部分专家模型来高效处理任务。例如,GLM-4.5拥有3550亿总参数和320亿激活参数,而GLM-4.5-Air则更为紧凑,拥有1060亿总参数和120亿激活参数。模型在参数效率上实现了显著优化,在保持高性能的同时,参数量远低于同级别模型。其技术栈支持深度思考(Deep Thinking)、流式输出(Streaming Output)、函数调用(Function Call)、上下文缓存(Context Caching)和结构化输出(Structured Output)等高级功能,提升了模型的实用性和集成能力。

应用场景

  • AI智能体开发: 作为核心驱动引擎,用于构建具备自主决策、规划和执行能力的各种智能体应用。
  • 自动化编程与开发辅助: 辅助开发者进行代码生成、错误排查、代码重构等,提高开发效率。
  • 复杂问题推理: 在金融分析、科学研究、医疗诊断等需要复杂逻辑推理的领域提供智能支持。
  • 企业级AI解决方案: 适用于需要高性能、高效率和高可靠性AI模型的企业级应用场景。
  • 对话系统与智能助手: 提升对话机器人、虚拟助手在理解、响应和执行复杂指令方面的能力。
  • GitHub仓库:https://github.com/zai-org/GLM-4.5
  • HuggingFace仓库: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
  • ModelScope仓库:https://modelscope.cn/collections/GLM-45-b8693e2a08984f
体验地址:
  • HuggingFace: https://huggingface.co/spaces/zai-org/GLM-4.5-Space
  • ModelScope:https://modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

2.Grok

2.Mistral AI

3.书生浦源

chat模型

VL多模态模型

3.Skywork天工

[Skywork天工-R1V]https://github.com/SkyworkAI/Skywork-R1V

[Skywork天工-SkyReels-V2]https://github.com/SkyworkAI/SkyReels-V2

[Skywork天工-SkyReels-V1]https://github.com/SkyworkAI/SkyReels-V1

Skywork MindLink – 昆仑万维开源的推理大模型

简介

MindLink是由昆仑万维(Kunlun Inc.)SkyworkAI团队开发的一系列大型语言模型。这些模型基于Qwen架构,并融合了最新的后训练技术,旨在提供在多种AI场景中表现卓越的通用能力。MindLink系列模型目前包含32B和72B等不同参数规模的版本,支持长达128K的上下文长度。

核心功能

  • 多领域通用性能: 在各类常见基准测试中展现出强大的性能,适用于广泛的AI应用场景。
  • 长上下文处理能力: 支持128K的超长上下文窗口,能够处理和理解大量的输入信息。
  • API访问: 提供API接口供开发者进行模型探索和测试,便于集成到各类应用中。
  • 持续优化与迭代: 团队致力于模型的持续优化和改进,欢迎用户反馈以推动模型演进。

技术原理

MindLink模型基于Qwen架构进行开发,并在此基础上集成了SkyworkAI团队在后训练(Post-training)方面的最新进展。这意味着模型在基础预训练之后,通过特定的微调、指令跟随或强化学习等技术进一步提升了其性能和泛化能力。其支持的128K上下文长度表明模型采用了高效的注意力机制或位置编码技术,使其能够处理远超传统模型的长序列输入,从而更好地理解复杂语境和长文本信息。模型在Hugging Face上提供不同量化版本的下载,暗示其在部署和效率方面也进行了优化,以适应不同的硬件环境。

应用场景

  • 通用AI任务处理: 适用于多种AI场景,包括但不限于内容生成、智能问答、文本摘要、翻译等。
  • 学术研究与开发: 作为基础模型,可供研究人员进行二次开发、模型微调以及新算法的验证。
  • 企业级应用集成: 通过提供的API接口,企业可将其集成到智能客服、自动化办公、数据分析等内部系统中。
  • 长文本理解与生成: 凭借其超长上下文能力,特别适用于需要深入理解长篇文档或生成长篇内容的场景,例如报告撰写、法律文书分析、代码生成等。

Skywork MindLink的项目地址

  • Github仓库:https://github.com/SkyworkAI/MindLink
  • 技术论文:https://github.com/SkyworkAI/MindLink/blob/main/mindlink.pdf
  • HuggingFace模型库:
* MindLink-32B:https://huggingface.co/Skywork/MindLink-32B-0801 * MindLink-72B:https://huggingface.co/Skywork/MindLink-72B-0801

3.月之暗面moonshot

3.科大讯飞

3.百川大模型

3.面壁智能miniCPM

3小红书dots.llm1

3.Llama-meta

3.minimaxi

3.YI零一万物

3.360智脑

3.硅基流动siliconflow

3.阶跃星辰

3.Blue LM蓝心大模型

3.序列猴子

3.紫东太初

3.智源AI-悟道

XBai o4 大模型

XBai o4 是由 MetaStone AI(问小白)开发并开源的第四代大语言模型,专注于提升复杂推理能力。该模型已在GitHub和Hugging Face上发布,旨在促进AI技术的透明度和协作。XBai o4在复杂推理任务中表现出色,其性能在某些基准测试中甚至超越了OpenAI-o3-mini和Anthropic的Claude Opus,是开源AI领域的重要进展。

image.png

核心功能

XBai o4 的核心功能在于其强大的深度推理能力和高质量推理轨迹选择。它能够同时实现深入的逻辑推理和选择最优的推理路径,从而提供更快且更高质量的响应。通过优化推理成本,特别是在策略奖励模型(PRMs)上的显著降低,XBai o4展现了卓越的效率。

技术原理

XBai o4 基于其独创的“反思性生成形式”(reflective generative form)进行训练,该形式将“长链思维强化学习”(Long-CoT Reinforcement Learning)与“过程奖励学习”(Process Reward Learning)融合到一个统一的训练框架中。此外,通过在PRMs和策略模型之间共享骨干网络,该模型显著降低了PRMs的推理成本,提升了推理效率和质量。

应用场景

XBai o4 作为一款高性能的开源推理模型,预计将在多个领域发挥重要作用。其主要应用场景包括:
  • 教育与研究:为学术研究和教育领域的复杂问题提供强大的推理支持。
  • 企业应用:在需要高级决策和问题解决能力的商业场景中,如智能客服、数据分析、自动化决策系统等。
  • AI技术开发:作为开源基础模型,促进全球AI生态系统的创新与发展,降低AI技术应用的门槛。
  • GitHub仓库:https://github.com/MetaStone-AI/XBai-o4/
  • HuggingFace模型库:https://hf-mirror.com/MetaStoneTec/XBai-o4

美团 LongCat-Flash-Chat

美团正式发布并开源 LongCat - Flash - Chat。该模型采用创新性混合专家模型架构,实现计算效率与性能双重优化,推理速度快,适合复杂智能体应用。在多领域基准测试中表现优异,还提供两种高效部署方案,已在 Github、Hugging Face 平台开源。

核心功能

  • 计算效率与性能优化:创新性架构使计算效率和性能双提升,少量激活参数时性能比肩主流模型。
  • 快速推理:推理速度快,适合耗时较长的复杂智能体应用。
  • 多领域表现良好:在通用领域知识、智能体工具使用、编程、指令遵循等方面表现出色。
  • 高效部署:提供基于 SGLang 和 vLLM 的两种高效部署方案。

技术原理

  • 架构层面:采用混合专家模型(Mixture - of - Experts, MoE)架构,引入“零计算专家(Zero - Computation Experts) ”机制,实现算力按需分配和高效利用。
  • 训练优化:训练过程采用 PID 控制器实时微调专家偏置,稳定单 token 平均激活量;层间铺设跨层通道,使通信和计算并行;对常用大模型组件和训练方式改进,使用超参迁移和模型层叠加方式训练。
  • 底层优化:定制化底层优化,实现高效训练和高推理速度。

应用场景

  • 复杂智能体应用:因其推理速度快,适合耗时较长的复杂智能体任务。
  • 通用知识问答:在通用领域知识基准测试表现好,可用于知识问答场景。
  • 编程辅助:在编程相关基准测试有竞争力,可辅助编程工作。
  • 指令遵循任务:在指令遵循方面优势显著,适用于需遵循复杂指令的任务。
  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  • Github:https://github.com/meituan-longcat/LongCat-Flash-Chat

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

Ling-V2 是蚂蚁百灵团队(Ant Bailei Team)与InclusionAI共同开发并开源的大型语言模型家族,其核心特点是采用了稀疏激活的MoE(Mixture-of-Experts)架构。其中首个版本Ling-mini-2.0拥有160亿总参数量,但在每个输入标记处理时仅激活14亿参数,实现了高效的推理性能。

核心功能

Ling-V2作为大型语言模型,主要功能包括但不限于:
  • 自然语言理解与生成: 能够处理和生成人类语言,进行文本创作、问答、摘要等。
  • 高效推理: 凭借MoE架构,在保持高性能的同时,优化了推理速度和资源消耗。
  • 多任务处理: 支持多种自然语言处理任务,有望在通用AI领域展现能力。
  • 开放研究与开发: 作为开源项目,支持开发者进行模型下载、部署、微调及创新应用。

技术原理

Ling-V2的核心技术原理是Mixture-of-Experts (MoE) 架构。该架构通过以下机制实现高效能和高效率:
  • 稀疏激活: 模型拥有大量专家网络(Experts),但在处理每个输入标记时,仅由一个或少数几个“门控网络”(Gating Network)选择并激活部分专家(例如Ling 2.0采用1/32的激活比例,即160亿参数中仅激活14亿参数),而非激活所有参数。
  • 参数效率: 这种稀疏激活机制显著降低了推理时所需的计算量和内存占用,提高了模型运行效率。
  • 扩展性: MoE架构允许模型通过增加专家数量来轻松扩展总参数量,从而提升模型容量和潜在性能,同时控制单次推理成本。
  • 经验优化设计: Ling 2.0在专家粒度、共享参数等方面进行了经验性优化设计,以进一步提升性能。

应用场景

基于其强大的语言处理能力和高效的MoE架构,Ling-V2可广泛应用于:
  • 智能客服与虚拟助手: 提供更流畅、自然的对话体验,处理用户咨询。
  • 内容创作辅助: 辅助撰写文章、报告、营销文案等。
  • 编程辅助: 结合特定场景(如Lingma AI编码助手),提供代码补全、生成、错误排查等。
  • 教育与研究: 作为基础模型用于语言理解、生成相关课程教学和AI研究。
  • 企业级应用: 部署于各类需要大规模文本处理和智能分析的场景,如数据挖掘、市场分析报告生成。
  • GitHub仓库:https://github.com/inclusionAI/Ling-V2

Qwen3Guard – 阿里安全防护模型

Qwen3Guard是由阿里巴巴通义千问团队推出的一个针对大语言模型(LLM)安全性的Guard模型。它旨在识别、过滤并纠正LLM生成内容中的不安全、有害或偏见信息,确保LLM在复杂交互中输出安全、合规且负责任的内容。Qwen3Guard不仅是一个文本安全模型,更是一个可部署、可定制的守护系统,以应对日益增长的LLM滥用风险,是LLM部署安全防护的重要组成部分。

pVIJGvt.png

核心功能

  • 多维度有害内容检测与过滤: 能够精准识别并处理网络暴力、色情、违法犯罪、恶意广告、隐私信息和意识形态等多种类型的有害内容。
  • Prompt攻击防御: 有效识别并抵御如越狱(Jailbreak)等旨在绕过LLM安全限制的Prompt攻击。
  • 内容纠正与改写: 对于检测到的有害内容,提供纠正或改写建议,引导LLM生成安全输出,而非简单地拒绝或截断。
  • 可部署性与灵活性: 作为独立的守护模型,可与各类LLM集成,支持不同部署环境和定制化需求。
  • 多语言支持: 具备处理多种语言有害内容的能力,增强了其全球应用潜力。

技术原理

Qwen3Guard采用基于Transformer架构的预训练语言模型,结合了监督学习(Supervised Learning)和强化学习(Reinforcement Learning)技术进行训练和微调。其核心技术包括:
  • 多任务学习: 模型被训练用于同时执行多种安全任务,如分类有害内容、识别攻击意图等,提升了泛化能力和准确性。
  • 上下文理解: 借助Transformer的强大序列建模能力,Qwen3Guard能深入理解用户Prompt和LLM生成内容的语义上下文,从而更准确地判断内容的安全风险。
  • 对抗训练与防御机制: 通过引入对抗样本进行训练,增强模型对各类Prompt攻击的鲁棒性。
  • 语义召回与知识蒸馏: 可能利用知识图谱或外部知识库进行语义召回,并运用知识蒸馏技术将大型安全模型的知识迁移到更小、更高效的Guard模型中,以实现高性能和低延迟。

应用场景

  • LLM应用部署: 作为API或独立模块集成到各类基于LLM的应用(如聊天机器人、智能客服、内容创作工具)中,确保输出内容的安全性。
  • 内容审核与审查: 辅助人工进行大规模内容审核,自动化识别和过滤社交媒体、论坛、用户生成内容平台上的有害信息。
  • 企业内部合规: 帮助企业确保内部LLM工具的使用符合法规和企业安全政策,避免潜在的法律和声誉风险。
  • 教育与儿童友好平台: 在教育科技产品或面向儿童的AI应用中,过滤不适宜内容,提供安全健康的交互环境。
  • 智能推荐系统: 过滤推荐内容中的不当信息,提升用户体验和平台安全性。
  • 项目官网:https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
  • GitHub仓库:https://github.com/QwenLM/Qwen3Guard
  • HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
  • 技术论文:https://github.com/QwenLM/Qwen3Guard/blob/main/Qwen3GuardTechnicalReport.pdf

Qwen3-VL

Qwen3-VL是阿里云通义团队推出的Qwen系列中最强大的视觉语言模型(Vision-Language Model, VLM),旨在提供卓越的多模态能力。它代表了该系列在视觉理解方面的重要升级,同时保持了强大的纯文本处理能力,并已通过开源方式向全球开发者开放。

pVIJtDf.jpg

核心功能

  • 多模态理解: 能够同时理解和处理纯文本、图像和视频等多种模态输入。
  • 长上下文处理: 支持处理更长的上下文信息,提升复杂任务的处理能力。
  • 空间感知: 具备对图像中物体空间位置和关系的感知能力。
  • 代码生成: 能够辅助或直接生成代码。
  • 高级推理与问题解决: 在复杂逻辑推理和问题解决方面表现出色。

技术原理

Qwen3-VL基于多模态大语言模型(Multimodal Large Language Model, MLLM)架构,深度融合了视觉编码器和语言解码器,实现跨模态信息的有效对齐与理解。模型通过在大规模多模态数据集上进行预训练,习得对图像、视频内容及其与文本描述之间复杂关联的深层语义表征。其技术创新在于全面提升了视觉理解能力,例如在目标识别、场景理解和视觉问答等任务上表现出色,同时确保了其在传统自然语言处理任务上的高性能。模型开放源代码,支持开发者进行部署与二次开发。
  • 项目官网:https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
  • GitHub仓库:https://github.com/QwenLM/Qwen3-VL
  • HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

Audio2Face – 英伟达AI面部动画生成模型

NVIDIA Audio2Face 是一款由NVIDIA开发的AI驱动工具,其核心功能是能够根据音频输入自动生成逼真且富有表现力的3D虚拟角色面部动画。该技术已由NVIDIA开源,旨在加速AI驱动的虚拟形象在游戏、3D应用及其他领域中的普及和应用。

pVIJaVS.webp

核心功能

  • 语音驱动面部动画: 将输入的音频内容实时或离线转换为3D角色的面部表情和口型同步动画。
  • 高保真口型同步: 精确捕捉语音细节,生成与发音高度匹配的唇部动作。
  • 情感表达: 能够根据语音中的情感信息,生成相应的面部表情,提升虚拟角色的表现力(通过Audio2Face-3D NIM)。
  • 实时生成: 支持实时处理,使得在互动应用中生成动态面部动画成为可能。

技术原理

NVIDIA Audio2Face 技术基于深度学习模型,特别是循环神经网络 (RNN) 和生成对抗网络 (GAN) 等架构。它首先对输入的音频信号进行声学特征提取,识别出音素(phonemes)、语调(intonation)和潜在的情感(emotion)信息。随后,这些音频特征被映射到预训练的3D面部模型上。模型通过驱动面部骨骼(skeletal animation)或混合形状(blendshapes)来生成对应的面部姿态、肌肉运动和口型变化。NVIDIA的GPU加速计算能力,特别是RTX技术,为模型的实时推理和动画渲染提供了强大的性能支持。开源模式也促进了社区对模型优化和功能扩展的贡献。

应用场景

  • 游戏开发: 快速、批量地为游戏角色生成对话动画,降低制作成本并提升游戏体验。
  • 虚拟现实 (VR) / 增强现实 (AR): 创建更具沉浸感和交互性的虚拟化身,支持用户在虚拟世界中进行自然交流。
  • 电影与动画制作: 简化角色面部动画流程,特别是在大量对话场景中,提高动画师的工作效率。
  • 数字人与虚拟主播: 为虚拟偶像、AI客服、数字助理和虚拟直播提供高度拟人化的面部表情和口型。
  • 教育与培训: 制作互动式教学内容,使虚拟讲师或模拟训练角色更加生动逼真。
  • 项目官网:https://developer.nvidia.com/blog/nvidia-open-sources-audio2face-animation-model/
  • GitHub仓库:https://github.com/NVIDIA/Audio2Face-3D

⬆ 返回README目录 ⬆ Back to Contents