LLM合集-多模态

LLM合集-多模态

LLM合集-多模态模块构建了涵盖30+个前沿多模态大模型的完整技术生态,专注于视觉-语言、音频-语言等跨模态AI技术的创新应用。该模块系统性地整理了OpenAI GPT-4V、Google Gemini Vision、Anthropic Claude 3、Meta LLaVA系列等国际领先的视觉语言模型,以及阿里通义千问VL、百度文心一言4.0、腾讯混元多模态、字节豆包视觉版、智谱GLM-4V、月之暗面Kimi视觉等国产优秀多模态模型。技术特色涵盖了图像理解、视频分析、音频处理、3D感知等多维度感知能力,详细解析了Vision Transformer、CLIP、DALL-E、Stable Diffusion等核心技术架构,以及视觉编码器、跨模态注意力、多模态融合等关键技术机制。

模块深入介绍了图像描述生成、视觉问答、图文检索、视频理解、音频转录、语音合成等典型应用场景,以及多模态数据预处理、模型训练策略、推理优化、部署方案等工程化实践。内容还包括多模态评测基准(VQA、COCO Caption、BLIP)、开源项目生态(LLaVA、MiniGPT-4、InstructBLIP)、商业API服务、性能对比分析等实用资源,以及最新技术突破、应用创新、发展趋势等前沿洞察,帮助开发者构建具备丰富感知能力的下一代AI应用,实现文本、图像、音频、视频等多模态信息的智能理解和生成。

多模态

目录

Qwen-Image – 阿里通义千问开源的文生图模型

简介

通义千问视觉基础模型(Qwen-Image)是由阿里云QwenLM团队开发的一款20亿参数的MMDiT(Multi-Modal Diffusion Transformer)图像基础模型。该模型在复杂的文本渲染和精准的图像编辑方面取得了显著进展,旨在提供高质量的图文生成与编辑能力。

qwem-image.png

qwen-image1.png

核心功能

技术原理

Qwen-Image是一个基于MMDiT架构的20亿参数基础模型。MMDiT(Multi-Modal Diffusion Transformer)结合了扩散模型(Diffusion Model)的图像生成能力和Transformer架构处理序列数据的优势。其核心原理可能涉及:

应用场景

Qwen-Image的项目地址

1.Nexus-Gen魔塔文生图

简介

Nexus - Gen是一个统一模型,将大语言模型(LLM)的语言推理能力与扩散模型的图像合成能力相结合,通过双阶段对齐训练过程,使模型具备处理图像理解、生成和编辑任务的综合能力。2025年5月27日使用BLIP - 3o - 60k数据集微调后,提升了图像生成对文本提示的鲁棒性。

Snipaste<em>2025-07-19</em>15-18-13.png

核心功能

技术原理

通过双阶段对齐训练过程,使大语言模型和扩散模型的嵌入空间对齐。一是自回归大语言模型学习基于多模态输入预测图像嵌入;二是视觉解码器训练从这些嵌入中重建高保真图像。训练大语言模型时,引入预填充自回归策略避免连续嵌入空间中误差积累导致的生成质量下降问题。

应用场景

1.Seed1.5-VL字节

简介

Seed1.5-VL 是由字节跳动发布的一款视觉 - 语言基础模型,专注于提升多模态理解与推理能力。它采用 5.32 亿参数的视觉编码器和 200 亿激活参数的混合专家(MoE)大语言模型,在 60 项公开评测基准中的 38 项取得 SOTA 表现。

Snipaste<em>2025-07-19</em>15-18-28.png

核心功能

技术原理

应用场景

2.谷歌系列

简介

Imagen图像生成模型,它是目前最佳的图像生成模型,可生成具有逼真细节、清晰画质、改进拼写和排版的图像,涵盖风景、人物、动物、漫画、包装等多种场景,能将用户的想象快速转化为生动的视觉呈现。谷歌DeepMind推出的视频生成模型Veo,包括最新的Veo 3及Veo 2的新创意功能。Veo 3具有更高的真实感、更好的指令遵循能力,能原生生成音频;Veo 2在控制、一致性和创造性方面有新提升,还具备参考图像生成视频、匹配风格等功能。该模型在视频生成领域表现出色,但在自然连贯的语音音频方面仍在发展。此外,还介绍了其在影视、游戏等行业的应用案例。

核心功能

应用场景

Graphiti-AI动态知识图谱

简介

Graphiti是一个用于构建和查询时态感知知识图谱的框架,专为动态环境中的AI智能体设计。它能将用户交互、企业数据和外部信息整合到可查询的图谱中,支持增量数据更新、高效检索和精确历史查询,适用于开发交互式、上下文感知的AI应用。

核心功能

技术原理

应用场景

2.通义万相-开源视频模型

简介

该链接指向ModelScope主页,提供模型、数据集、工作室等资源。包含快速入门指引,有本周热门模型、数据集和工作室展示。平台提供Studio用于构建和展示AI应用,还有开源框架辅助模型开发和应用构建,以及评估、训练推理等工具。

核心功能

技术原理

应用场景

2.字节BAGEL多模态模型

简介

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数(70亿活跃参数)。采用混合变换器专家架构(MoT),通过双编码器分别捕捉图像像素级和语义级特征,经海量多模态标记数据预训练。在多模态理解基准测试中超越部分顶级开源视觉语言模型,具备图像与文本融合理解、视频内容理解、文本到图像生成等多种功能。

Snipaste<em>2025-07-19</em>15-19-04.png

核心功能

技术原理

应用场景

2.bytedance ContentV文生视频

简介

ContentV 是字节跳动推出的一个高效视频生成模型框架,其 8B 开源模型基于 Stable Diffusion 3.5 Large 和 Wan - VAE,在 256×64GB NPUs 上仅训练 4 周就在 VBench 测试中取得 85.14 的成绩。它通过创新架构、训练策略和反馈框架,能根据文本提示生成多分辨率、多时长的高质量视频。

核心功能

技术原理

应用场景

2.Matrix-Game空间大模型-昆仑万维

简介

Matrix - Game是一个拥有170亿参数的交互式世界基础模型,用于可控的游戏世界生成。它采用两阶段训练流程,先进行无标签预训练理解环境,再进行有动作标签的微调以实现交互式视频生成。配套有含细粒度动作注释的大规模Minecraft数据集Matrix - Game - MC。通过GameWorld Score基准评估,在多个指标上优于先前的开源Minecraft世界模型。

核心功能

技术原理

Matrix - Game采用图像到世界的生成范式,以单张参考图像作为世界理解和视频生成的主要先验。使用自回归策略保持片段间的局部时间一致性,实现长时间视频生成。模型训练分两阶段,先无标签预训练理解环境,后有动作标签微调实现交互式视频生成。

应用场景

2.Step1X-3D 阶跃星辰 3D生成模型

简介

Step1X-3D 是一个专注于高质量、可控生成带纹理三维资产的开源框架。它旨在解决当前三维生成领域数据稀缺、算法局限性以及生态系统碎片化等挑战,通过先进的技术实现高保真几何和多样化纹理贴图的生成,并确保几何与纹理之间的高度对齐。

核心功能

技术原理

Step1X-3D 采用两阶段3D原生架构: 此外,该框架还包括一个严格的数据整理管道,处理并筛选出高质量的3D资产数据集,以支持模型训练。

应用场景

3.MoviiGen 1.1

简介

MoviiGen 1.1 是基于 Wan2.1 的尖端视频生成模型,在电影美学和视觉质量上表现出色。经专业人士评估,它在氛围营造、镜头运动和物体细节保留等关键电影维度表现卓越,能生成清晰度和真实感高的视频,适用于专业视频制作和创意应用。

核心功能

技术原理

应用场景

4.3D生成模型Partcrafter

简介

PartCrafter是首个结构化3D生成模型,可从单张RGB图像联合合成多个语义有意义且几何不同的3D网格。它基于预训练的3D网格扩散变压器,引入组合潜在空间和分层注意力机制,无需预分割输入,能同时对多个3D部分去噪,实现端到端的部件感知生成。研究还整理了新数据集支持部件级监督,实验表明其在生成可分解3D网格方面优于现有方法。

核心功能

技术原理

应用场景

4.OmniAudio空间音频生成

简介

OmniAudio是一个用于从360度视频生成一阶Ambisonics(FOA)空间音频的框架。论文作者提出了360V2SA新任务,构建了大规模数据集Sphere360,采用自监督预训练和双分支架构,在客观和主观指标上均达到了最先进的性能。项目网站提供相关信息,GitHub仓库提供代码。

核心功能

技术原理

应用场景

4.PlayDiffusion音频编辑

简介

PlayDiffusion是Play.AI推出的一款基于扩散模型的音频编辑模型,已开源。它解决了传统自回归模型在音频编辑时的局限性,能实现高质量、连贯的音频编辑,还可作为高效的文本转语音系统。

核心功能

技术原理

应用场景

5.多人对话视频框架

简介

MultiTalk是用于音频驱动的多人对话视频生成的开源框架。输入多流音频、参考图像和提示词,可生成包含符合提示的互动且嘴唇动作与音频一致的视频。它支持单人和多人视频生成、交互式角色控制、卡通角色和唱歌视频生成,具有分辨率灵活、可生成长达15秒视频等特点。

核心功能

技术原理

应用场景

5.趣丸科技-人脸动画生成

简介

Playmate 是一个通过3D隐式空间引导扩散模型实现人像动画灵活控制的框架。它旨在解决现有口型同步、头部姿态不准确以及缺乏精细表情控制等挑战,从而生成高质量、可控的逼真说话人脸视频。

核心功能

技术原理

Playmate 采用一个两阶段训练框架,核心是3D隐式空间引导扩散模型。

应用场景

Kwai Keye VL 快手

简介

Kwai-Keye专注于多模态大语言模型的前沿探索与创新,致力于推动视频理解、多模态大语言模型等领域的发展。其Keye-VL-8B模型基于Qwen3 - 8B语言模型和SigLIP视觉编码器,在视频理解、复杂逻辑推理等方面表现出色。此外,团队还有多项研究成果,如MM - RLHF、VLM as Policy等。

核心功能

技术原理

应用场景

OmniAvatar浙大阿里视频生成

简介

OmniAvatar是一种创新的音频驱动全身视频生成模型,旨在解决现有音频驱动人类动画方法在创建自然同步、流畅的全身动画以及精确提示控制方面的挑战。它引入像素级多层次音频嵌入策略,结合基于LoRA的训练方法,提高了唇同步准确性和身体动作的自然度,在面部和半身视频生成方面超越现有模型,可用于播客、人类交互、动态场景和唱歌等多种领域。

核心功能

技术原理

应用场景

- OmniAvatar/OmniAvatar-14B · Hugging Face - OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation - Omni-Avatar/OmniAvatar - OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation

OmniGen2 智源研究院

简介

OmniGen2 是一款多功能开源生成模型,旨在为文本到图像、图像编辑和上下文生成等多种生成任务提供统一解决方案。它具有两条不同的文本和图像模态解码路径,采用非共享参数和分离的图像分词器。研究团队开发了全面的数据构建管道,引入了用于图像生成任务的反射机制和专门的反射数据集。此外,还推出了 OmniContext 基准测试,用于评估模型的上下文生成能力。

核心功能

技术原理

应用场景

FairyGen 动画生成

简介

FairyGen是一个用于从单个儿童手绘角色生成动画故事视频的新颖框架。它借助多模态大语言模型进行故事规划,通过风格传播适配器确保视觉一致性,利用3D代理生成物理上合理的运动序列,并采用两阶段运动定制适配器实现多样化和连贯的视频场景渲染,在风格、叙事和运动方面表现出色。

核心功能

技术原理

应用场景

HumanOmniV2-阿里

简介

HumanOmniV2 是阿里通义实验室开源的多模态推理模型,解决了多模态推理中全局上下文理解不足和推理路径简单的问题。它能在生成答案前分析视觉、听觉和语言信号,构建场景背景,精准捕捉隐藏逻辑和深层意图。该模型在 IntentBench 等基准测试中表现出色,现已开源。

核心功能

技术原理

应用场景

HumanOmniV2-coder

HumanOmniV2-模型

HumanOmniV2-论文

HumanOmniV2

通义万相2.2 – 阿里开源AI视频生成模型

简介

通义万相(Tongyi Wanxiang)是阿里云通义旗下的人工智能创意创作平台。其中,通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型,旨在降低创意工作的门槛。该平台集成了多种AI生成能力,包括视频和图像内容的创作。

通义.png

通义1.png

核心功能

通义2.png

技术原理

通义万相2.2基于先进的AI视频生成模型,采用大规模模型(Large-Scale Video Generative Models)和混合专家架构(MoE-Architecture)来提升视频生成质量和控制力。其核心技术可能包括深度学习、扩散模型(如Hugging Face上提及的Diffusers)以及复杂的神经网络结构,以实现从文本或图像到高质量视频的转换。

应用场景

腾讯混元3D世界模型开源

简介

Hunyuan3D是腾讯研发的大规模三维生成模型,基于先进的扩散(Diffusion)技术。它能够通过文本描述或图像输入,快速、高效地生成高质量、逼真的3D资产。HunyuanWorld-1.0作为其重要组成部分,更是首个开源的三维世界生成模型,旨在革新3D内容创作流程。

腾讯.png

核心功能

技术原理

Hunyuan3D的核心技术是扩散模型 (Diffusion Models),这是一种生成式AI模型,通过逐步去噪过程从随机噪声中学习数据分布并生成新样本。其架构包含: 整个系统通过大规模3D数据集进行训练,以确保生成内容的质量和多样性。

应用场景

腾讯混元 3D 世界模型 1.0:

书生浦语-科学多模态大模型Intern-S1

简介

Intern-S1 是上海人工智能实验室 (Shanghai AI Laboratory) 开发的 InternLM 系列大型语言模型 (LLM) 中的一员。它旨在提供高质量的语言模型和全栈工具链,尤其强调其强大的推理能力和与外部工具的交互能力。

核心功能

技术原理

Intern-S1 基于 InternLM 的基础架构,并在此基础上进行了优化:

应用场景

Step 3 – 阶跃星辰多模态推理模型

简介

Step 3 是阶跃星辰(StepFun AI)发布的新一代基础大模型,专为推理时代设计。它集高性能与极致成本效益于一体,具备强大的视觉感知和复杂推理能力,旨在成为SOTA(State-of-the-Art)水平的开放生态基础模型。

核心功能

技术原理

Step 3 采用了先进的MoE(Mixture-of-Experts)架构,这使得模型能够在大参数量下实现高效的激活参数量,从而平衡性能与计算资源消耗。总参数量达到321B,激活参数量为38B。这种架构有助于模型在不同任务上动态激活最相关的专家网络,优化资源利用和推理效率。其技术报告进一步详细阐述了Attention-FFN解耦等优化技术,以实现高吞吐量解码。

应用场景

Higgs Audio V2 – 开源语音大模型

简介

Higgs Audio V2是由李沐及其团队Boson AI开发并开源的语音大模型。它是一个强大的音频基础模型,经过超过1000万小时的音频数据和多样化文本数据的预训练,旨在模拟自然流畅的多人互动场景,并具备生成高质量音频的能力。

核心功能

技术原理

Higgs Audio V2采用统一的音频语言建模方法(unified audio language modeling at scale)。它是一个基于超过1000万小时的音频数据和多样化文本数据进行预训练的音频基础模型。这种大规模的预训练使其能够捕捉复杂的语音特征、韵律变化以及多语言和多说话人的交互模式,从而实现自然度高、表现力强的语音生成。模型在多个基准测试中展现出高性能,包括Seed-TTS Eval、Emotional Speech Dataset (ESD)、EmergentTTS-Eval和Multi-speaker Eval。

应用场景

AudioGen-Omni – 快手推出的多模态音频生成框架

简介

AudioGen-Omni是快手推出的一款多模态音频生成框架,能够基于视频、文本等多种输入,高效生成高质量的音频、语音和歌曲。它旨在提供一个统一的解决方案,以满足不同形式的音频内容创作需求。

核心功能

技术原理

AudioGen-Omni基于多模态扩散Transformer (MMDit) 架构,通过联合训练大规模的视频-文本-音频语料库进行学习。其核心技术包括统一的歌词-文本编码器,以及用于相位对齐的先进机制(如AdaLN),确保生成音频的连贯性和质量。这种架构使其能够理解复杂的跨模态信息,并生成与输入高度相关的音频。

应用场景

AudioGen-Omni的项目地址

MiDashengLM – 小米开源的高效声音理解大模型

简介

MiDaShengLM-7B是小米研究(Xiaomi Research)开源的多模态语音AI模型,参数规模为70亿,专注于音频理解和推理。该模型旨在通过整合先进的音频编码器和大型语言模型,实现对语音、环境声音和音乐元素的全面理解。它代表了小米在语音AI领域的重要进展,并已面向全球社区开放。

核心功能

技术原理

MiDaShengLM-7B的核心技术原理是其独特的集成架构:

应用场景

MiDashengLM的项目地址

RedOne – 小红书推出的社交大模型

简介

根据提供的链接,ai-bot.cn 是一个创新型人工智能平台,提供一系列AI驱动的工具和解决方案,旨在提升生产力、优化流程并提供数据分析。同时,arXiv.org 是一个开放获取的学术论文预印本库,涵盖物理学、数学、计算机科学等多个领域,是研究人员分享最新研究成果的重要平台,尽管其内容未经同行评审。

小红书.png

核心功能

技术原理

ai-bot.cn 提供的AI服务很可能基于机器学习(ML)自然语言处理(NLP) 等技术,通过训练模型实现自动化、数据分析和智能交互。其中可能涉及神经网络结构设计激活函数选择梯度优化技术以及损失函数构建等机器学习核心原理。针对特定应用,如聊天机器人,可能运用到对话管理系统意图识别等技术。虽然具体论文内容未直接获取,但arXiv上相关的AI研究广泛涉及梯度下降等优化算法,这是深度学习训练的基础。

应用场景

RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

RynnVLA-001是阿里巴巴达摩院开发的一种视觉-语言-动作(Vision-Language-Action, VLA)模型。该模型通过大规模第一人称视角的视频进行预训练,旨在从人类示范中学习操作技能,并能够将这些技能隐式地迁移到机器人手臂的控制中,使其能够理解高层语言指令并执行复杂的任务。

rynnvla.png

rynnvla1.png

核心功能

技术原理

RynnVLA-001的核心技术原理是基于生成式先验(generative priors)构建的。它是一个简单而有效的VLA模型,其基础是一个预训练的视频生成模型。具体流程包括:

应用场景

RynnEC – 阿里达摩院世界理解模型

RynnEC是阿里巴巴达摩院推出的一种世界理解模型(MLLM),专为具身认知任务设计。它旨在赋予人工智能系统对物理世界及其环境中物体深入的理解能力。

RynnEC.png

核心功能

RynnEC的核心功能在于能够从多达11个维度全面解析场景中的物体,这些维度包括但不限于物体的位置、功能和数量。模型支持对物体的精确理解以及对空间关系的深入感知。

RynnEC1.png

技术原理

RynnEC基于多模态大语言模型(MLLM)架构,其技术原理涉及融合视觉与语言信息,以构建对真实世界的丰富表征。通过对场景中物体在位置、功能、数量等多个维度进行精细化分析,RynnEC能够实现高维度的场景理解和物体属性识别,从而支持复杂的具身智能决策和交互。

应用场景

RynnEC主要应用于需要具身认知能力的领域,包括但不限于:

RynnRCP – 阿里达摩院机器人上下文协议

RynnRCP(Robotics Context Protocol)是阿里巴巴达摩院开源的一套机器人上下文协议及框架,旨在打通具身智能(Embodied Intelligence)的开发全流程,提供标准化的机器人服务协议和开发框架。

核心功能

技术原理

RynnRCP的核心技术原理基于机器人上下文协议(Robotics Context Protocol),该协议定义了机器人系统间进行任务、数据和状态交互的标准化接口和规范。其内部包含:

应用场景

Matrix-3D – 昆仑万维开源的3D世界模型

Matrix-3D是由昆仑万维Skywork AI团队开发的一个先进框架,旨在通过单张图像或文本提示生成可探索的大规模全景3D世界。它结合了全景视频生成与3D重建技术,旨在实现高保真、全向可探索的沉浸式3D场景。

matrix-3d.png

核心功能

技术原理

Matrix-3D的核心技术原理在于其对全景表示(panoramic representation)的利用,以实现广覆盖、全向可探索的3D世界生成。它融合了以下关键技术:

matrix-3d1.png

应用场景

Matrix-3D的项目地址

Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

Matrix-Game 2.0是由昆仑万维SkyWork AI发布的一款自研世界模型,被誉为业内首个开源的通用场景实时长序列交互式生成模型。它旨在推动交互式世界模型领域的发展,能够实现可控的游戏世界生成,并支持高质量、实时、长序列的视频生成。

matrix-game.png

matrix.png

核心功能

技术原理

应用场景

GLM-4.5V – 智谱开源的最新一代视觉推理模型

GLM-4.5V是由智谱AI开发并开源的领先视觉语言模型(VLM),它基于智谱AI新一代旗舰文本基座模型GLM-4.5-Air(总参数1060亿,活跃参数120亿)。该模型继承并发展了GLM-4.1V-Thinking的技术路线,旨在提升多模态感知之上的高级推理能力,以解决复杂AI任务,并支持长上下文理解和多模态智能体应用。

glm-4.5v.jpeg

glm.jpeg

核心功能

技术原理

GLM-4.5V的技术核心在于其 “思考模式”(Thinking Mode)多模态强化学习(Multimodal Reinforcement Learning, RL)。它基于大规模Transformer架构,以GLM-4.5-Air作为其文本基础模型。通过采用GLM-4.1V-Thinking的先进方法,模型在多模态数据上进行了大规模训练,并结合可扩展的强化学习策略,显著增强了其复杂问题解决、长上下文处理和多模态代理能力。模型响应中的边界框(Bounding Box)坐标通过特殊标记 <|beginofbox|> <|endofbox|> 表示,坐标值通常在0到1000之间归一化,用于视觉定位。

应用场景

DreamVVT – 字节联合清华推出的视频虚拟试穿技术

DreamVVT是由字节跳动与清华大学(深圳)联合推出的一项视频虚拟试穿(Video Virtual Try-On, VVT)技术。该项目旨在通过先进的AI模型实现高保真、逼真的视频虚拟服装试穿效果,尤其强调在“野外”场景下(即非受控环境)的真实感和鲁棒性。 dream.png

核心功能

DreamVVT的核心功能是实现用户在视频中进行虚拟服装试穿。具体包括:

DreamVVT.png

技术原理

DreamVVT技术基于扩散Transformer(DiTs)框架,并采用两阶段(或称为分阶段)方法实现。其主要技术原理包括:

应用场景

DreamVVT技术在多个领域具有广阔的应用前景,主要包括: DreamVVT的项目地址

Skywork UniPic 2.0 – 昆仑万维开源的统一多模态模型

简介

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,致力于实现统一的图像生成、编辑和理解能力。该模型旨在通过统一的架构处理视觉信息,提升多模态任务的效率和性能。

unipicv2-pipeline.png

核心功能

技术原理

Skywork UniPic 2.0 基于2B参数的SD3.5-Medium架构(部分资料提及UniPic为1.5B参数的自回归模型,但2.0版本主要强调SD3.5-Medium架构)。其核心技术原理包括:

应用场景

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost 是由 Seungyong Lee 和 Jeong-gi Kwak (来自 NXN Labs) 共同开发的一个统一且可扩展的扩散变换器 (Diffusion Transformer) 框架。它旨在解决虚拟试穿中服装与身体对应关系建模的挑战,并首次将虚拟试穿 (Virtual Try-On) 和虚拟脱衣 (Virtual Try-Off) 功能整合到单一模型中,实现了双向处理,显著提高了虚拟服装合成的真实性和泛化能力。

voost.png

voost2.png

核心功能

Voost.jpg

技术原理

Voost 的核心技术是其提出的“统一且可扩展的扩散变换器 (Unified and Scalable Diffusion Transformer)”。该模型利用扩散模型 (Diffusion Model) 在图像生成方面的强大能力,结合变换器架构 (Transformer Architecture) 处理序列和长距离依赖的优势,以端到端的方式学习虚拟试穿和脱衣的复杂映射关系。通过一个单一的扩散变换器,Voost 能够:

应用场景

Qwen-Image-Edit

Qwen-Image-Edit 是由阿里通义(Qwen)团队推出的全能图像编辑模型,其核心构建于200亿参数的Qwen-Image架构之上。该模型融合了语义与外观层面的双重编辑能力,旨在提供精确、高效的图像内容修改。

qwen.png

qwen1.png

核心功能

技术原理

Qwen-Image-Edit 基于大型预训练的视觉-语言模型(VLMs)——Qwen-Image,该模型拥有200亿参数,使其具备强大的图像理解与生成能力。其实现双重编辑能力可能采用了多模态融合技术,结合扩散模型(Diffusion Models)进行高质量图像生成与编辑,并通过条件控制机制(如文本提示、掩码)来引导编辑过程。针对文本编辑,模型可能利用了其多语言理解能力,结合图像内容上下文进行文本嵌入、渲染及融合,以确保编辑的自然性和风格保持。

应用场景

ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具

ToonComposer是由腾讯ARC实验室开发的一款生成式AI工具,旨在彻底改变和简化传统的卡通及动漫制作流程。它主要通过自动化关键帧之间的中间帧生成(inbetweening)工作,极大地提高了动画制作效率,减少了人工工作量。

toon.png

toon1.png

核心功能

技术原理

ToonComposer采用先进的生成式人工智能(Generative AI)技术,特别是通过“生成式关键帧后处理”(Generative Post-Keyframing)方法来驱动动画帧的生成。其核心在于利用深度学习模型理解关键帧间的运动和形态变化,并自主合成中间帧,从而实现动画的平滑过渡。这一技术统一了传统的动画插帧过程,摆脱了对每一帧手动绘制的依赖。

应用场景

ToonComposer的项目地址

混元3D世界模型1.0推出Lite版本

腾讯混元世界模型1.0(Hunyuan World Model 1.0)是腾讯发布的一款基于AI的开源3D场景生成模型。它能够将文本描述或单张图片快速转化为高质量、可探索、360度的沉浸式3D虚拟世界,极大地简化了传统3D内容创作的复杂流程,实现分钟级生成。

image.png

核心功能

技术原理

腾讯混元世界模型1.0的生成架构核心在于结合了多项先进技术:

应用场景

DINOv3 – Meta开源的通用视觉基础模型

DINOv3是Meta AI推出的一款通用、SOTA(State-of-the-Art)级视觉基础模型,通过大规模自监督学习(SSL)进行训练。它能够从无标注数据中学习并生成高质量的高分辨率视觉特征,旨在提供强大的通用视觉骨干网络,并在各种视觉任务和领域中实现突破性性能。DINOv3在DINOv2的基础上进一步扩展了模型规模和训练数据量,并支持商业许可。

dinov3.png

核心功能

技术原理

DINOv3的核心技术原理在于大规模自监督学习(SSL)。它在DINOv2的基础上进行了显著的扩展,模型参数量达到7B,训练数据集规模达到1.7B图像,但相比弱监督方法,所需的计算资源更少。

应用场景

CombatVLA – 淘天3D动作游戏专用VLA模型

CombatVLA 是由淘天集团未来生活实验室团队开发的一种高效视觉-语言-动作(VLA)模型,专为3D动作角色扮演游戏(ARPG)中的战斗任务设计。该模型旨在通过整合视觉感知、语言理解和动作控制,提升AI在复杂游戏环境中的表现。

comatvla.png

combatvla.png

核心功能

CombatVLA 的核心功能在于对3D ARPG中战斗任务的优化。它能够:

技术原理

CombatVLA 基于一个3B参数规模的VLA模型,其技术原理涉及:

应用场景

CombatVLA 的主要应用场景集中在:

Wan2.2-S2V – 阿里多模态视频生成模型

Wan2.2是由腾讯AI团队开发的一款先进的音视频生成模型,尤其以Wan2.2-S2V-14B和Wan2.2-5B模型为代表。它旨在提供高质量、高清晰度的视频生成能力,支持文本到视频(T2V)、图像到视频(I2V)以及音频驱动的电影级视频生成,并通过优化模型架构和数据训练,实现了在消费级GPU上的高效运行。

2-2.png

2-2-1.png

核心功能

技术原理

Wan2.2在技术上进行了多项创新。核心模型如Wan2.2-S2V-14B采用了14B参数,而TI2V-5B模型则结合了先进的Wan2.2-VAE,实现了16×16×4的高压缩比,从而在保证生成质量的同时显著提升了效率并降低了计算资源需求。模型在训练阶段使用了比Wan2.1更庞大的数据集(图片和视频数量分别增加65.6%和83.2%),并特别注重对数据进行美学标签(如光照、构图、色调)的标注,使得模型能够学习和生成具有视觉吸引力的视频。此外,它可能采用了类似“专家混合”(Mixture-of-Experts)的路由机制,根据信噪比(SNR)动态切换不同的专家模型来处理视频生成的不同阶段,例如一个专家处理高噪声的早期帧,另一个处理细节添加,从而在不增加总计算量的情况下提升输出质量和连贯性。

EchoMimicV3 – 蚂蚁多模态数字人视频生成框架

EchoMimicV3 是蚂蚁集团推出的一款高效的多模态、多任务数字人视频生成框架。该框架拥有13亿参数,旨在统一和简化数字人动画生成过程,能够通过音频、图像或两者结合,生成逼真的人物肖像视频。它采用了任务混合和模态混合范式,并结合了新颖的训练与推理策略,使得其生成质量可与参数量大10倍的模型媲美。

Echo-Mimic-V3.jpg

Echo-Mimic-V3-1.jpg

核心功能

EchoMimicV3 的核心功能包括:

技术原理

EchoMimicV3 的技术原理基于以下核心设计:

应用场景

EchoMimicV3 在数字人生成领域具有广泛的应用前景,包括但不限于: 项目官网:https://antgroup.github.io/ai/echomimic_v3/

SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型

SlowFast-LLaVA-1.5 是苹果公司推出的一款高效视频大语言模型 (VLLM),专为长视频理解和分析而设计。它整合了 SlowFast 网络架构与 LLaVA 1.5 视觉语言模型,旨在不进行额外训练的情况下,提升模型对视频内容的空间细节和长时间序列上下文的理解能力,从而实现视频问答、视频描述生成等多种任务。

核心功能

技术原理

SlowFast-LLaVA-1.5 的核心在于其创新的 SlowFast 输入设计,将视频输入有效地解耦为两个并行流,以捕捉不同粒度的时空信息: 这两个流的特征通过特定的融合机制结合,然后输入到 LLaVA 1.5 视觉语言模型中进行进一步的推理和语言生成。这种双流机制有效地平衡了计算效率和信息捕获的全面性,使其能够高效地处理长视频数据,并从中提取丰富的时空特征。

应用场景

SpatialLM 1.5 – 群核科技推出的空间语言模型

SpatialLM是由群核科技(Manycore Research)推出的一款强大的空间大语言模型,旨在将大语言模型的能力扩展到三维空间理解。它能够处理三维点云数据,理解自然语言指令,并生成包含空间结构、物体关系和物理参数的空间语言,从而实现对三维场景的结构化理解和重建。

核心功能

技术原理

SpatialLM的核心技术原理是将深度学习与三维几何处理相结合,具体包括:

应用场景

SpatialGen 3D场景生成模型

SpatialGen是由Manycore Research团队开发的一个专注于三维室内场景生成的项目。它旨在通过布局引导的方式,自动化生成高质量的3D室内环境,是Manycore Research在三维空间生成式AI引擎方面的研究成果之一。

spatialgen.png

核心功能

SpatialGen的核心功能是实现布局引导下的三维室内场景生成。这意味着用户可以通过提供特定的空间布局信息,由模型自动生成符合该布局的完整3D室内场景,极大地简化了3D内容创作的流程。

技术原理

SpatialGen的技术原理基于生成式人工智能,特别是针对三维空间数据的生成。它利用深度学习模型,通过学习大量的室内场景数据,掌握空间布局、物体摆放和材质纹理等复杂关系。该系统可能集成了空间理解(Spatial Understanding)和三维设计(3D Design)的先进算法,通过一个生成式AI引擎来实现从抽象布局到具体3D场景的转化。Hugging Face上提供了其模型,暗示了其采用大规模预训练模型或类似架构。

应用场景

SpatialGen在多个领域具有广泛的应用潜力: SpatialGen的项目地址

HunyuanVideo-Foley视频音效生成模型

HunyuanVideo-Foley是由腾讯混元团队开源的一款先进的文本-视频-音频(Text-Video-to-Audio, TV2A)生成系统。该系统旨在根据输入的视频内容和文字描述,自动生成高保真且与视频画面及语义高度匹配的音效,从而为无声视频赋予沉浸式的听觉体验,显著提升内容的吸引力和专业度。

hunyuan.png

混元.png

核心功能

技术原理

HunyuanVideo-Foley的核心技术基于以下几个方面:

应用场景

OmniHuman-1.5 – 字节数字人动画生成模型

OmniHuman-1.5是字节跳动推出的一款先进的AI模型,旨在从单张图片和语音轨道生成富有表现力、上下文连贯且情绪化的数字人动画。该模型模拟人类的“系统1和系统2”双重认知理论,结合了多模态大语言模型(MLLM)和扩散变换器(Diffusion Transformer),实现了从审慎规划到直觉反应的模拟,极大地提升了数字内容创作的效率和表现力。

zijieomini.png

字节1.png

字节2.png

核心功能

技术原理

应用场景

Waver 1.0 –字节AI视频生成模型

Waver 1.0是一个下一代的人工智能视频工具,也是一个通用的基础模型,专为统一的图像和视频生成而设计。它利用先进的AI技术,将静态的文字和图像无缝转换为动态的视频内容,旨在提供高质量、高速度和高创造性的AI生成视频解决方案。

wave-main.jpg

wave.png

wave-model.png

核心功能

技术原理

Waver模型基于整流流Transformer架构构建,旨在实现工业级性能。其核心包含两个主要模块: 模型的训练过程注重从低分辨率视频(如192p)学习运动,随后逐步提高分辨率至480p和720p,并采用类似于SD3的流匹配训练设置。在文本到图像生成方面,它利用了lognorm(0.5, 1)概率密度函数。

应用场景

MAI-Voice-1 – 微软极速语音生成模型

MAI-Voice-1是微软人工智能团队推出的首个内部开发的、具有高度表现力和自然度的语音生成模型。它代表了微软在语音AI领域自主研发的重要进展,旨在提供高效、逼真的语音合成能力。

核心功能

技术原理

MAI-Voice-1的开发得益于微软对下一代GB200 GPU集群的利用,该集群是专门为训练大型生成模型而优化的定制基础设施。这表明其技术原理可能涉及先进的深度学习架构,如基于Transformer或扩散模型的生成网络,并通过大规模并行计算和优化算法实现了高效的语音合成,从而在保证高质量输出的同时,显著提升了生成速度。

应用场景

FramePackLoop – AI视频生成

FramePackLoop 是一个基于lllyasviel的FramePack项目开发的视频工具,专门用于生成无限循环的视频。它通过智能组合主视频和连接视频片段,实现视频内容的无缝循环播放。

核心功能

FramePackLoop 的核心功能是创建循环视频。它能够将用户提供的视频素材进行处理,通过技术手段使其首尾连接,形成一个平滑且连续的无限循环视频流。

技术原理

FramePackLoop 的技术原理基于扩散模型 (Diffusion Model) 和视频处理技术。它继承了FramePack项目在视频帧处理和生成方面的能力,并在此基础上进行了优化,实现了视频内容的无缝衔接,确保循环播放时的视觉流畅性,避免跳帧或中断感。其目标是让循环视频的扩散生成变得实用。

应用场景

FramePackLoop 的应用场景广泛,尤其适用于需要重复播放视频内容的场合,包括但不限于:

MiniCPM-V 4.5 – 面壁端侧多模态模型

MiniCPM-V 4.5是MiniCPM-V系列中最新、功能最强大的模型,总参数量为80亿,由Qwen3-8B和SigLIP2-400M构建。它在视觉-语言能力方面表现卓越,超越了GPT-4o-latest、Gemini 2.0 Pro等专有模型以及Qwen2.5-VL 72B等开源模型,成为30亿参数以下性能最佳的端侧多模态模型。该版本显著提升了性能并引入了高效高刷新率长视频理解、可控的混合快/深度思维等新功能。

minicpmv<em>4</em>5<em>evaluation</em>result.png

minicpm-v-4dot5-framework.png

radar<em>minicpm</em>v45.png

核心功能

技术原理

MiniCPM-V 4.5模型基于Qwen3-8B语言模型和SigLIP2-400M视觉模型进行构建。其核心技术原理包括:

应用场景

阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布端到端语音大模型 Step - Audio 2 mini,在多个国际基准测试集获 SOTA 成绩。它将语音理解、音频推理与生成统一建模,支持语音原生的 Tool Calling 能力,已上线 GitHub、Hugging Face 等平台。

核心功能

技术原理

Hunyuan-MT-7B – 腾讯混元翻译模型

腾讯混元-MT-7B(Hunyuan-MT-7B)是腾讯混元团队发布的一款轻量级开源翻译模型。该模型参数量仅为70亿,旨在提供高效、准确的机器翻译服务。尽管体量较小,但其性能据称可与一些闭源大型模型相媲美,致力于推动人工智能翻译的开放研究和应用。

hunyuan.png

核心功能

技术原理

Hunyuan-MT-7B是一款基于Transformer架构的轻量级翻译模型,拥有70亿参数。该模型通过大规模多语言数据进行训练,以实现跨语言的准确映射。其设计理念强调在模型规模和翻译性能之间取得平衡,使其能够在资源受限的环境下运行。此外,该系列还提供了量化版本(如fp8),进一步优化了模型部署和推理效率。Hunyuan-MT-Chimera作为集成模型,可能采用了模型融合(ensemble)技术,结合多个模型的优势来提升整体翻译质量和鲁棒性。

应用场景

HunyuanWorld-Voyager – 腾讯世界模型

腾讯混元团队推出的HunyuanWorld-Voyager(混元Voyager)是业界首个支持原生3D重建的超长漫游世界模型。它是一个新颖的视频扩散框架,能够从单张图片生成用户定义的相机路径,并进一步生成与世界一致的3D点云序列,旨在重新定义AI驱动的空间智能。该模型基于HunyuanWorld 1.0构建,并已进行开源。

腾讯voyager.jpg

核心功能

技术原理

HunyuanWorld-Voyager采用创新的视频扩散框架,其技术核心包括:

应用场景

AudioStory – 腾讯音频生成模型

AudioStory是由腾讯ARC实验室开发的一项音频生成技术,旨在根据自然语言描述生成高质量的长篇叙事音频。它通过采用“分而治之”的策略,将复杂的叙事请求分解为有序的子任务,从而实现对长文本的有效处理和音频生成。该技术结合了大型语言模型(LLMs)的能力,以实现更优异的指令遵循能力和音频保真度。

核心功能

技术原理

AudioStory的核心技术原理在于结合了大型语言模型(LLMs)的强大文本理解和生成能力与音频合成技术。它采用一种“分而治之”(Divide and Conquer)的策略,具体可能包括:

应用场景

USO – 字节内容与风格解耦与重组统一框架

USO(Unified Style and Subject-Driven Generation via Disentangled and Reward Learning)是由字节跳动智能创作实验室开发并开源的统一风格与主体驱动生成模型。该项目旨在解决传统上将风格驱动和主体驱动生成视为独立任务的局限性,通过一个统一的框架实现二者的融合,能够自由地将任意主体与任意风格结合,生成高质量的图像内容。

uso.png

uso1.png

核心功能

技术原理

USO的核心技术在于其解耦与奖励学习(Disentangled and Reward Learning)机制。它通过精巧的算法设计,实现“内容”和“风格”的有效解耦和重组,从而克服了传统方法中风格和主体生成之间的内在矛盾。该模型构建在一个统一的生成框架之上,利用深度生成模型(如基于FLUX.1-dev的模型)进行图像合成。此外,它通过引入奖励学习进一步提升模型性能,确保生成结果的自然度和一致性。项目还进行了GPU内存优化,使其在消费级GPU(峰值显存约16GB)上也可运行。

应用场景

InfinityHuman – 字节AI数字人

InfinityHuman 是一个专注于生成长期、高质量、音频驱动数字人动画的统一框架。它能够根据输入的音频生成具有高分辨率视觉一致性、生动手部和身体动作的数字人视频,特别适用于长视频内容的生成。

infinityhuman.png

核心功能

infinityhuman-pipeline.png

技术原理

InfinityHuman 采用了一种粗到细(coarse-to-fine)的生成框架。其核心技术原理包括:

应用场景

Super Agent Party – 开源3D AI桌面伴侣

Super Agent Party 是一款开源的3D AI桌面伴侣软件,集成了桌宠、智能助手、知识库和机器人控制等多种功能。它旨在为用户提供一个高度可定制和互动的AI伴侣体验,支持通过Docker或源码快速部署到Windows等操作系统,并实现全渠道一键部署。

vrmbot3.jpeg

核心功能

技术原理

Super Agent Party 基于开源架构构建,利用大型模型(LLM)进行智能处理,并通过集成多种工具链实现功能扩展。其核心技术原理包括:

应用场景

叠叠社 – AI虚拟陪伴应用

内容涵盖了人工智能聊天机器人(AI Chatbots)的技术定义、核心功能及构建方法,以及与“二次元”文化相关的数字平台和线下沉浸式体验。前者侧重于通过AI算法实现自动化对话和用户交互,后者则包括一款名为“叠叠社”的客户端应用和日本的“二次元之森”(Nijigen no Mori)主题公园,这些都体现了技术在不同领域中的应用与发展。

叠叠社.png

核心功能

技术原理

应用场景

OneCAT – 美团联多模态模型

OneCAT是由美团与上海交通大学联合推出的一种新型统一多模态模型。该模型采用纯解码器架构,旨在无缝集成多模态理解、文本到图像生成及图像编辑等功能,通过创新的技术实现了高效的多模态处理和卓越的性能表现。

onecat.png

核心功能

OneCAT的核心功能包括:

onecat-train-stages.png

技术原理

OneCAT在技术上采用了多项创新:

应用场景

OneCAT的广泛应用场景包括:

rStar2-Agent – 微软

rStar2-Agent是微软研究院推出的一款140亿参数的数学推理模型,通过智能体强化学习(Agentic Reinforcement Learning)进行训练,在数学推理任务上达到了前沿水平,甚至超越了如DeepSeek-R1(6710亿参数)等更大的模型。它不仅具备强大的数学问题解决能力,还展现出高级认知行为,如在使用工具前的深思熟虑以及根据代码执行反馈进行自我纠正和迭代。rStar-Math是微软为提升AI数学推理能力而设计的开源框架,旨在使小型语言模型(SLMs)也能实现与大型模型相当甚至超越的数学推理能力,重点解决高质量数据集缺乏和奖励模型构建复杂等挑战。

rStar2-Agent.png

核心功能

技术原理

rStar2-Agent的核心技术原理包括:

应用场景

<<<<<<< HEAD

MiniCPM 4.1 –混合思考模型

MiniCPM和MiniCPM4.1系列是OpenBMB团队开发的一系列极致高效的端侧大语言模型(LLMs),专注于在边缘设备上实现高性能。它们通过在模型架构、学习算法、训练数据和推理系统四个维度进行系统性创新和优化,旨在提供卓越的效率提升和强大的功能,使其成为本地部署和AI PC等场景的理想选择。

minicpm-efficiency.png

minicpm-benchmark.png

核心功能

技术原理

混元图像2.1 – 腾讯开源的文生图模型

腾讯混元(Hunyuan)系列是腾讯开发的一系列先进AI生成模型,专注于图像、3D模型和视频内容的创作。其中,混元大模型Hunyuan Image 2.1作为核心图像生成模型,以其毫秒级响应速度和卓越的生成质量,为用户提供了前所未有的实时交互式AI创作体验。该系列模型通过整合图像、3D和视频生成能力,旨在成为多模态AI创作领域的领先解决方案。

hunyuan2.1.png

核心功能

技术原理

混元系列模型融合了多项前沿AI技术:

应用场景

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型

SpikingBrain-1.0(瞬悉1.0)是中国科学院自动化研究所推出的类脑脉冲大模型系列,其灵感来源于生物大脑,并采用脉冲神经网络(SNN)来模拟生物神经元的工作方式。该模型旨在突破传统Transformer架构在处理长序列和能耗方面的限制,通过新型非Transformer架构实现高效能和低能耗的大规模语言模型,例如SpikingBrain-7B模型。

brain.png

braintable1.png

核心功能

技术原理

SpikingBrain系列模型的核心在于其独特的脉冲神经网络(Spiking Neural Network, SNN)架构,区别于传统的ANN(Artificial Neural Network)。其主要技术原理包括:

SRPO – 腾讯混元推出的文生图模型

SRPO(Semantic Relative Preference Optimization)是腾讯混元团队推出的一种先进的文本到图像生成模型。它在现有的Flux模型基础上,通过引入语义相对偏好优化机制,显著提升了生成图像的质量和真实感。

srpo.png

核心功能

srpo1.png

技术原理

SRPO的核心在于其语义相对偏好优化机制。它是在FLUX.1-dev模型基础上构建的在线强化学习版本。

应用场景

Stand-In – 腾讯微信推出的视频生成框架

Stand-In是由腾讯微信视觉团队推出的一种轻量级、即插即用的视频生成框架,专注于实现身份保持的视频生成。该框架通过仅训练1%的基础模型参数,即可生成高保真度、身份一致性强的视频,显著降低了训练成本和部署难度。

stand-in.png

stand-in1.png

核心功能

技术原理

Stand-In的核心技术原理在于其创新的身份注入机制。它通过引入一个条件图像分支 (conditional image branch) 到预训练的视频生成模型中。这个分支将条件图像直接映射到与视频相同的潜在空间(latent space),从而利用预训练模型固有的面部特征提取能力。此外,该框架还提出了一个受限注意力机制 (restricted attention mechanism)条件位置编码 (conditional positional encoding),以促进跨分支的信息有效交换,确保在扩散过程中模型能够联合利用参考图像,从而保持身份一致性并生成高质量视频。这种方法实现了在参数效率 (parameter efficiency) 和生成质量之间的最佳平衡。

应用场景

项目官网:https://www.stand-in.tech/

HuMo – 清华联合字节推出的多模态视频生成框架

HuMo(Human-Centric Video Generation via Collaborative Multi-Modal Conditioning)是字节跳动研究院开发的一种以人为中心的视频生成统一框架。该框架旨在解决多模态控制中的挑战,通过两阶段训练范式以及创新策略,实现对视频中人物主体的高度保留和音视频同步。HuMo能够利用文本、图像和音频等多种输入,生成高质量、高可控性的人体视频。

humo.png

核心功能

技术原理

HuMo的核心技术原理在于其协作多模态条件机制两阶段训练范式 * 第一阶段:可能侧重于学习基础的视频生成能力和多模态特征的初步对齐,确保模型能够理解不同模态之间的关联。 * 第二阶段:进一步优化主体保持和音视频同步等高级任务,通过引入专门的损失函数或模块来强化这些特定功能。例如,可以采用感知损失 (Perceptual Loss) 来保持主体外观的一致性,使用同步损失 (Synchronization Loss) 来对齐音频和视觉元素。

应用场景

ZipVoice – 小米推出的零样本语音合成模型

ZipVoice 是一系列基于流匹配(Flow Matching)的快速、高质量零样本文本到语音(TTS)模型。它旨在解决现有大型零样本 TTS 模型参数庞大、推理速度慢的问题,通过紧凑的模型尺寸和快速的推理速度提供卓越的语音克隆、可懂度和自然度。该系列模型支持中文和英文,并包含单说话人语音生成模型(ZipVoice)和对话生成模型(ZipVoice-Dialog)。

核心功能

技术原理

ZipVoice 的核心技术是基于 流匹配(Flow Matching) 范式。它结合了:

应用场景

Mini-o3 – 字节联合港大推出的视觉推理模型

Mini-o3是由字节跳动和香港大学联合推出的开源模型,专注于解决复杂的视觉搜索问题。它具备强大的“图像思考”能力,能够生成类似于OpenAI o3的多轮代理式轨迹,旨在通过扩展推理模式和交互轮次来增强视觉-语言模型(VLMs)在处理挑战性视觉任务时的性能。

mini-o3-teaser.png

核心功能

mini-o3-demo.png

技术原理

Mini-o3的技术核心在于其对视觉-语言模型(VLMs)的强化,通过强化学习(Reinforcement Learning)机制进行训练,使其能够学习并优化多轮推理模式。模型集成并运用基于图像的工具来分解和解决复杂的视觉问题。其关键创新在于“扩展推理模式和交互轮次”,这意味着它能够处理更长的推理链条和更复杂的交互序列,从而生成高效且类似于人类思考的代理式轨迹(Agentic Trajectories),以应对高级视觉任务的需求。

应用场景

LLaSO – 逻辑智能开语音模型

LLaSO(Large Language and Speech Model)是一个由北京深度逻辑智能科技有限公司、智谱AI和清华大学共同推出的全球首个完全开源的大型语音语言模型。它旨在解决大型语音语言模型(LSLM)领域长期存在的挑战,并支持中英文的端到端语音聊天机器人功能。

核心功能

技术原理

LLaSO模型结合了大型语言模型(如Glm-4-9B-Base)与语音处理技术,构建了一个统一的语音语言模型架构。其技术实现涉及:

应用场景

Qwen3-Omni – 全模态大模型

Qwen3-Omni(通义千问3-Omni)是阿里云通义团队推出的业界首个原生端到端全模态AI模型。它旨在无缝处理和统一文本、图像、音频和视频等多种模态数据,通过单一模型实现多模态信息的深度理解与生成,避免了传统多模态模型中不同模态之间相互转化的损耗,代表了全模态大模型领域的重要进展。

q3o.png

核心功能

Qwen3-Omni的核心功能在于其强大的多模态统一处理能力,主要体现在:

q3o-overview.png

技术原理

Qwen3-Omni基于大型语言模型(LLM)架构,其技术原理的突破点在于实现了“原生端到端”的全模态融合,而非简单的模态拼接或转换。这通常意味着:

应用场景

Qwen3-Omni的强大全模态能力使其在多个领域具有广阔的应用前景:

Qwen3-TTS-Flash

Qwen3-TTS-Flash 是阿里云通义团队推出的一款旗舰级文本转语音(Text-to-Speech, TTS)模型,它继承了Qwen系列模型的先进AI技术。该模型专注于提供高效、高质量的语音合成服务,尤其在多音色、多语言和多方言支持方面表现出色。作为Qwen生态系统的一部分,它旨在利用跨模态深度学习技术,为用户带来卓越的语音生成体验。

qwentts-table2.png

核心功能

技术原理

Qwen3-TTS-Flash 的技术原理基于先进的深度学习架构,可能融合了Transformer或Diffusion-based模型等前沿TTS技术。其实现多音色、多语言和多方言能力,通常涉及以下关键技术:

应用场景

Qianfan-VL – 百度

百度千帆-VL (Qianfan-VL) 是百度推出的一系列通用多模态大语言模型,专为企业级多模态应用场景设计。该模型在保持强大通用能力的同时,针对工业部署中的高频场景进行了深度优化,旨在提供高效、稳定的视觉-语言理解与生成服务。

核心功能

技术原理

应用场景

LongCat-Flash-Thinking – 美团推理模型

LongCat-Flash-Thinking是美团团队推出的一款拥有5600亿参数的大型推理模型(LRM),其核心特点是采用了创新的专家混合(MoE)架构。该模型能够根据上下文需求动态激活186亿至313亿参数(平均约270亿),旨在优化计算效率和性能,并在通用推理、形式推理和智能体推理方面表现出色。

pV4jd1O.png

核心功能

技术原理

LongCat-Flash-Thinking采用混合专家(MoE)架构,总参数量达5600亿。其关键创新在于动态计算系统,能够根据当前上下文、效率和性能需求,动态激活186亿至313亿个参数进行推理,实现了参数的稀疏激活与高效利用。模型还使用了快捷连接MoE(shortcut-connected MoE),支持计算与通信的并行处理,进一步提升了处理速度和性能。该模型基于美团自研的DORA系统进行开发,DORA系统通过流式rollout利用多个Actor模型旧版本,以保持采样一致性并优化长尾生成。此外,其设计注重推理效率,尤其适用于Prefill和Decode速度要求极高的多轮对话型ReACT智能体系统。

应用场景

DeepSeek-R1-Safe – 浙大联合华为推出的安全大模型

DeepSeek R1 Safe是DeepSeek公司推出的一款以推理能力为核心的大型语言模型,由中国公司DeepSeek开发,旨在提供高性能的AI推理服务。该模型在公开基准测试中表现出色,但其安全性与对抗性攻击的抵御能力受到广泛关注和讨论。DeepSeek R1以其开放透明的特性,将模型训练方法与结果向全球研究社区开源,但这也增加了其遭受“越狱”和对抗性攻击的风险。

pV4jG7R.md.png

pV4jttx.md.png

核心功能

DeepSeek R1的核心功能主要体现在其强大的推理能力。它能够:

技术原理

DeepSeek R1的技术原理基于大型语言模型的架构,并融合了多项先进技术:

应用场景

鉴于DeepSeek R1的强大推理能力和代码生成潜力,其应用场景包括但不限于:

混元3D-Omni

Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队推出的一个统一框架,旨在实现精细化、可控的3D资产生成。该框架基于Hunyuan3D 2.1架构,解决了现有3D生成方法在控制信号多样性和粒度上的局限性,通过引入通用的控制信号表示,支持多种输入同时进行细粒度控制,是业内首个多条件同时控制的3D资产生成系统。

核心功能

技术原理

Hunyuan3D-Omni的核心在于其基于Hunyuan3D 2.1扩散模型架构,并引入了Omni-Control这一通用控制信号表示。它通过一个多模态编码器将不同类型的输入(如文本描述、2D图像特征、几何信息如深度和法线、以及语义分割信息)统一映射到一个共享的特征空间。这些统一的控制信号随后被送入扩散模型的U-Net骨干网络中,在不同的生成阶段引导3D内容生成过程。这种跨模态信息融合层级式控制机制,使得模型能够同时处理并融合来自多个源头的控制信息,实现对3D资产形状、纹理、材质等属性的细粒度、一致性控制。

应用场景

混元3D-Part

Hunyuan3D-Part是腾讯混元实验室推出的一个开源、部分级3D生成模型,是腾讯混元AI生态系统的一部分。该平台旨在通过文本描述、单一或多张图像以及草图,快速生成高质量、精细化、带纹理和骨骼的3D模型,其目标是在可控性和生成质量方面超越现有解决方案,无需安装即可在线使用。Hunyuan3D 2.1版本进一步提供了全面的模型权重和训练代码,以实现可扩展的3D资产创建。

核心功能

技术原理

应用场景

混元图像3.0

腾讯混元图像3.0 (HunyuanImage 3.0) 是腾讯推出并开源的原生多模态图像生成模型。该模型参数规模高达80B,是目前开源领域中性能表现突出、参数量最大的文生图(text-to-image)模型。它是一个工业级模型,旨在通过其先进的多模态能力,为用户提供高质量的图像生成服务。

核心功能

技术原理

HunyuanImage 3.0 基于原生多模态、自回归的混合专家(Mixture-of-Experts, MoE)架构构建,其参数规模达到800亿。这种架构使其在处理复杂的多模态输入时表现出优异的性能。模型通过多模态大语言模型对生成图像进行自动评估和评分,方法是提取图像中3500个关键点,并跨12个类别与这些关键点进行比较,以确保生成图像的视觉内容与文本提示高度一致。

应用场景

LONGLIVE – 英伟达视频生成

LongLive是由英伟达(NVIDIA)等顶尖机构联合推出的实时交互式长视频生成框架。它是一个开源项目,旨在通过用户输入的连续提示词,实时生成高质量、用户引导的长视频内容。该模型提供1.3B参数版本,并可在Hugging Face平台获取。

核心功能

技术原理

LongLive框架主要基于帧级自回归(AR)模型。为实现长视频的高效生成和实时交互性,它融合了以下关键技术:

应用场景

KAT-Dev-32B – 快手Kwaipilot代码大模型

KAT-Coder 是一个先进的代码智能模型,由快手 AI 团队(Kwaipilot)推出,致力于通过多阶段训练优化,为开发者提供强大的编程辅助。它支持与 Claude Code 集成,旨在提升代码生成、调试和优化效率,特别是在 SWE-Bench Verified 等代码基准测试中展现出卓越性能。

核心功能

技术原理

KAT-Coder 的技术核心在于其独特的多阶段训练范式。首先,模型经历一个mid-training 阶段,奠定基础代码理解能力。随后进行监督微调 (Supervised Fine-Tuning, SFT),利用高质量代码数据进行精确指导。接着引入强化微调 (Reinforcement Fine-Tuning, RFT),通过奖励机制进一步优化代码生成质量和遵循指令的能力。最后,模型通过大规模智能体强化学习 (Large-scale Agentic Reinforcement Learning, RL) 进行深度优化,使其能够展现出涌现行为 (Emergent Behaviors),即在复杂编程任务中表现出更高级的自主解决问题能力。这种训练方法使其能够理解复杂的上下文、生成结构化代码并自我修正。

应用场景

JoySafety – 京东大模型安全框架

JoySafety 是京东开源的大模型安全框架,旨在为企业提供成熟、可靠、免费的大模型内容安全防护方案。其核心模型 JSL-joysafety-v1 基于 gpt-oss-20b 基座模型,通过指令微调专门打造,具备对大模型输入和输出的双重安全判别能力。

核心功能

技术原理

应用场景

Lynx – 字节个性化视频生成模型

Lynx是由字节跳动(ByteDance)开发并开源的高保真个性化视频生成模型。它能够根据用户提供的一张静态图像,生成高质量、高保真度的个性化视频,同时有效保留视频中主体(如人物)的身份和特征。

核心功能

技术原理

Lynx模型基于Diffusion Transformer (DiT) 架构构建。DiT是一种结合了扩散模型和Transformer的生成模型,利用Transformer的强大建模能力处理图像或视频数据,并通过扩散过程逐步去噪生成高质量内容。具体而言,Lynx通过学习从噪声图像逐步恢复到清晰图像的过程,并利用Transformer的注意力机制捕捉图像中的长距离依赖关系,从而实现从单张图像到高保真视频的转化,同时保证主体的一致性和视频的连贯性。

应用场景

DeepSeek-OCR

DeepSeek-OCR 是由 DeepSeek-AI 开发的一个光学字符识别(OCR)模型,专注于“上下文光学压缩”(Contexts Optical Compression)。它旨在探索视觉-文本压缩的边界,能够将图像中的文本信息进行高效地提取和处理,实现图像到文本的转换。

核心功能

技术原理

DeepSeek-OCR 基于先进的视觉-语言(Vision-Language)模型架构,采用 transformers 库中的 AutoModelAutoTokenizer 进行模型的加载和初始化。其核心技术原理可能涉及:

应用场景

PaddleOCR-VL

PaddleOCR-VL是百度飞桨团队推出的一个最先进(SOTA)且资源高效的文档解析模型,其核心是超轻量级的PaddleOCR-VL-0.9B视觉-语言模型(VLM)。该模型在文档解析和元素级识别方面表现出色,能够高效处理文本、表格、公式和图表等复杂元素,并支持109种语言,同时保持极低的资源消耗和快速推理速度。

核心功能

技术原理

PaddleOCR-VL的核心技术基于其紧凑而强大的视觉-语言模型PaddleOCR-VL-0.9B。该模型将NaViT风格的动态分辨率视觉编码器ERNIE-4.5-0.3B语言模型深度融合。通过这种融合架构,VLM能够有效地理解视觉信息和文本信息之间的复杂关系,实现精准的元素识别。其超轻量化的设计(0.9B参数量)结合了高效的模型压缩和优化技术,使其在保证高准确率的同时,具备极低的计算和存储资源需求。

应用场景

LongCat-Video – 美团开源的AI视频生成模型

LongCat-Video是美团LongCat团队开源的136亿参数视频生成基础模型。它是一个强大的AI模型,能够将文本和图像转化为高质量的视频,旨在在文本到视频(Text-to-Video)、图像到视频(Image-to-Video)等多种任务上提供出色的性能,并在内部和公共基准测试中与领先的开源模型及商业解决方案相媲美。

核心功能

LongCat-Video的核心功能包括:

技术原理

LongCat-Video采用136亿参数的Transformer架构作为其基础模型。其关键技术原理是利用多奖励强化学习优化 (Multi-reward Reinforcement Learning Optimization),特别是Group Relative Policy Optimization (GRPO) 方法。通过这种优化训练,模型在文本对齐、视觉质量和运动质量等多个维度上实现了性能提升,确保生成视频的整体质量和逼真度。

应用场景

LongCat-Video的应用场景广泛,包括:

=======

⬆ 返回README目录 ⬆ Back to Contents