AI-Compass 文档

UnifoLM-WMA-0 – 宇树科技世界模型行动框架

UnifoLM-WMA-0是宇树科技开源的世界模型-动作(World-Model-Action, WMA)架构,旨在实现通用机器人学习,适用于多类机器人本体。其核心在于构建一个能够理解机器人与环境之间物理交互规律的世界模型,并具备交互式仿真引擎和策略增强两大功能,以优化机器人的决策性能并提供合成数据进行学习。该架构已在真实机器人上部署,能够实现动作的可控生成和长期交互生成,显著提升机器人在复杂环境中的学习与决策能力。

宇树.png

核心功能

宇树2.png

技术原理

应用场景

Genie Envisioner – 智元机器人平台

Genie Envisioner(GE)是智元(Zhiyuan Robotics / AgiBotTech)推出的首个面向真实世界机器人操控的统一世界模型开源平台。它旨在通过一个统一的视频生成框架,集成策略学习、评估和仿真功能,打破传统机器人学习系统分阶段开发的模式,从而实现更高效、更智能的机器人操作。

核心功能

技术原理

Genie Envisioner 的核心技术原理是构建一个统一的视频生成世界模型(Unified Video-Generative World Model)。该平台整合了策略学习(Policy Learning)、评估(Evaluation)和仿真(Simulation)机制,形成一个闭环系统(Closed-loop System)。它利用大规模数据集(如约3000小时的机器人操作数据)进行训练,以学习和预测机器人与环境的交互。通过生成未来的视频帧,该模型能够模拟不同操作指令下的机器人行为和环境变化,从而支持强化学习(Reinforcement Learning)和模型预测控制(Model Predictive Control)等高级控制策略,最终实现指令到动作的精确转化,并克服传统感知-规划-执行(Perception-Planning-Execution)范式的局限性。

应用场景

RoboBrain 2.0 – 智谱

简介

RoboBrain 2.0是由北京智源人工智能研究院(BAAI)开发的开源具身视觉语言基础模型,旨在统一物理环境中复杂具身任务的感知、推理与规划能力。模型包含轻量级7B和全尺寸32B两种变体,采用异构架构(视觉编码器+语言模型),在空间推理(如可达性预测、空间指称)和时间决策(如闭环交互、多智能体长程规划)等任务中表现优异,超越多数开源及专有模型,是当前最强大的开源具身智能模型之一。

 

核心功能

技术原理

应用场景

RoboOS 2.0 – 智谱

简介

RoboOS是首个开源具身操作系统,基于大脑-小脑分层架构,旨在解决多智能体协作中跨实体适应性差、任务调度低效及动态纠错不足等问题。其核心通过具身大脑模型(多模态大语言模型)、小脑技能库(模块化即插即用工具包)和实时共享内存(时空同步机制)的协同,支持长程任务的规划、调度与纠错,以及多智能体高效协作,并优化了边缘-云通信与分布式推理,适用于餐厅、家庭、超市等多场景的异构实体协作。

 

核心功能

技术原理

RoboOS采用大脑-小脑分层架构:

应用场景

VLAC – 上海AI实验室开源的具身奖励大模型

VLAC (Vision-Language-Action-Critic) 是一个为机器人真实世界强化学习和数据精炼设计的通用型双向批判和操作模型。它旨在通过融合视觉、语言和动作信息,为机器人提供强大的泛化能力和零样本学习能力。

vlac.png

核心功能

技术原理

VLAC模型融合了视觉(Vision)、语言(Language)、动作(Action)和批判(Critic)四大模块。其核心在于“双向批判器”(pair-wise critic)机制,通过对观测和动作的关联性进行评估,生成密集的奖励信号,从而驱动真实世界中的强化学习过程。模型设计注重实现跨领域的泛化能力,使其能够适应多样化的机器人平台和复杂任务,无需特定任务的微调。

应用场景

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA-M1 是由上海人工智能实验室 (Shanghai AI Lab) 开源的具身双系统操作大模型,旨在作为机器人操作的具身“大脑”。它致力于构建覆盖“思考-行动-自主学习”的完整闭环,适用于机器人复杂场景和长程任务。

internVLA.png

核心功能

技术原理

InternVLA-M1 采用“双系统双监督”架构,在统一框架下集成了语言理解能力(语言头)和机器人行动能力(动作头)。该模型通过在大规模合成数据集 InternData-M1 上进行预训练,学习到从视觉-语言输入到具身操作动作的映射。InternData-M1 平台包含超过80K物体的通用化抓取与放置数据,确保了模型在多样化场景中的泛化能力。其具身“大脑”特性使其能够进行高层级的任务规划和空间推理,而InternVLA-A1作为具身“小脑”则负责执行具体操作。

应用场景

InternVLA·N1 – 上海AI Lab双系统导航大模型

InternVLA·N1(原名InternVLA·M1)是上海人工智能实验室(Shanghai AI Lab)开发的一种具身智能双系统操作大模型,旨在作为机器人操纵的“具身大脑”。InternNav是InternRobotics团队开发的一个开源具身导航工具箱,致力于构建通用导航基础模型,两者均在具身智能和机器人领域提供全面的解决方案。

internvla_model.png

s1s2_overview.png

核心功能

技术原理

InternVLA·N1作为具身双系统操作大模型,其核心技术原理可能涉及多模态大模型(Large Multimodal Models, LMM),结合视觉、语言等多种感知输入,通过深度学习架构实现对机器人行为的理解与规划。InternNav则基于PyTorch深度学习框架,并深度整合了HabitatIsaac Sim等高性能仿真环境,以实现强化学习(Reinforcement Learning)模仿学习(Imitation Learning)等范式下的具身导航策略训练。其通用导航基础模型的构建可能依赖于Transformer架构或类似模型,以处理复杂的环境感知和路径规划问题。

应用场景

GigaBrain-0 – 开源VLA具身模型

GigaBrain-0 是一种新型的视觉-语言-行动(VLA)基础模型。它通过利用世界模型(World Model)生成大规模多样化数据,显著减少了对真实机器人数据的依赖,旨在提升跨任务(cross-task)泛化能力。该项目是开源的,并由Open GigaAI维护。

核心功能

GigaBrain-0 的核心功能在于实现具身智能体(Embodied Agent)的视觉感知、语言理解与物理行动之间的协同。它能够通过合成数据进行高效学习,从而在多种机器人任务中展现出强大的通用性和适应性,有效克服了传统具身学习中真实数据采集成本高、多样性不足的挑战。

技术原理

GigaBrain-0 的技术核心是基于世界模型驱动的数据生成范式。具体来说,它利用先进的生成模型(Generative Models)模拟物理世界,生成丰富的、多样化的视觉、语言和行动序列数据。这些合成数据被用于训练 VLA 模型,使其能够学习复杂的感知-决策-行动策略。该方法通过仿真环境中的大规模数据预训练,将具身智能的训练效率和泛化能力提升至新的水平,减少了对昂贵且耗时的真实世界交互数据的需求。

应用场景