GigaBrain-0: A World Model-Powered Vision-Language-Action Model
论文地址:https://arxiv.org/abs/2510.19430
项目页面:https://gigabrain0.github.io/
进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群
目录
1. 引言
2. 相关工作
2.1 视觉-语言-动作模型
2.2 世界模型作为数据引擎
3. GigaBrain-0 模型
3.1 模型总体框架
3.2 视觉与语言处理:基于 PaliGemma2 的多模态编码
3.3 RGB-D 输入建模
3.4 具身思维链(Embodied CoT)
3.5 连续动作生成
3.6 联合训练目标
4. GigaBrain-0 数据
4.1 真实世界数据
4.2 世界模型生成数据
4.2.1 Real2Real Appearance Transfer(真实视频外观增强)
4.2.2 View Transfer(多视角渲染与几何一致增强)
4.2.3 Sim2Real Transfer(模拟场景的真实外观增强)
4.2.4 Human-to-Robot Video Transfer(人类视频迁移到机器人执行)
4.2.5 文本控制的视频生成 + 逆动力学 (IDM)
4.2.6 多视角一致视频生成
4.2.7 生成质量评估与筛选
5. 实验
5.1 灵巧操作实验
5.2 长时程实验
5.3 移动操作实验
5.4 操作泛化实验
5.5 设备端实验
6. 结论与未来工作
1. 引言
训练通用的视觉-语言-动作模型(Vision-Language-Action,VLA)传统上依赖大规模真实机器人数据,成本高昂且多样性受限,限制了模型扩展与泛化能力。
本文提出GigaBrain-0,一个由世界模型生成数据驱动的 VLA 基础模型,通过合成的但逼真的轨迹训练,显著降低对真实数据的依赖,同时提升跨任务泛化能力。
在训练管线中,GigaBrain-0 引入多种世界模型生成的数据类型,包括:
- 外观迁移(Real2Real)
- 视角迁移(View Transfer)
- 模拟到真实迁移(Sim2Real Transfer)
- 从人类视频到机器人视频的迁移(Human Transfer)
- 多视角一致生成(Multiview Generation)
这些数据使模型暴露在远超真实采集范围的环境纹理、光照、物体材质、视角与布局变化中。
通过这些大规模、多样化的数据,GigaBrain-0 能够学习更稳健的视觉感知与动作策略,从而增强其在真实场景中的泛化与鲁棒性。
此外,GigaBrain-0 在体系结构上提出两个重要创新:
1)RGBD 模态建模(RGBD Input Modeling):引入深度(depth)信息,使模型更加精准地理解三维几何关系与空间布局,对精细操控至关重要;
2)具身链式思考监督(Embodied Chain-of-Thought supervision, Embodied CoT):
- 让模型在动作生成前产生中间的推理序列,如操作轨迹和子目标规划,从而模拟人类解决问题的认知过程。
- 这种结构化推理使其能够有效处理需要持续关注和序列决策的长周期任务与细粒度动作。
2. 相关工作
2.1 视觉-语言-动作模型
VLA 模型通过整合视觉输入、自然语言指令和运动控制,成为实现通用机器人操作的有前景范式。
现有模型(如 OpenVLA、GR-3、π0、π0.5、GR00T N1、G0 等)通常采用大规模视觉语言模型(如 Flamingo、Kosmos、QwenVL 系列)作为语义 backbone,通过自回归 token 预测或流匹配生成动作序列。
尽管性能显著,但对大量真实交互数据的依赖带来了可扩展性和成本方面的实际挑战。
2.2 世界模型作为数据引擎
世界模型的最新进展推动了合成数据在具身智能中的应用。
- 在自动驾驶等领域,生成模型正被越来越多地用于模拟复杂交通场景。MagicDrive、GAIA-1、Vista 等模型可生成结构一致、动态合理的交通场景;
- 在机器人领域,DreamGen、Robot4DGen、ReBot、RDT-1B 等工作使用视频扩散模型、4D 时空一致生成方式提高模拟场景的物理保真度、几何一致性和多视角一致性。一些方法还通过逆动力学估计(inverse dynamics estimation,IDE)从生成视频中反求可执行的低层动作序列。
- 此外,TesserAct、Robotransfer、EMMA 等方法在生成过程中引入深度、法向量、边缘、语义 mask 等结构先验,使生成的视频在物体几何、空间拓扑、相机位姿变化等方面保持一致性。
- 多视角扩散模型(如多视角 concatenated noise 方案)进一步支持多摄像头同步生成。
GigaBrain-0 利用世界模型的生成能力,在纹理、材质、光照、物体放置和相机视角等方面产生高度多样化的数据,为训练 VLA 模型提供了丰富且可泛化的数据源。
3. GigaBrain-0 模型
3.1 模型总体框架
GigaBrain-0 是一个端到端的 Vision-Language-Action(VLA)模型,输入为视觉观测与语言任务指令,输出为动作序列,用于控制具身机器人(如 G1 或 PiPER 双臂)。
其核心结构采用Mixture-of-Transformers (MoT)框架,由两个主要专家模块组成:
视觉-语言专家(VLM Expert):基于 PaliGemma2 进行多模态编码,用于语义理解与中间推理生成。
动作专家(Action Expert):采用基于 DiT(Diffusion Transformer)的连续动作生成器,通过流匹配(Flow Matching)预测动作 chunk。
【注:该框架与 Unifusion 具有相似的思想,均使用预训练的 VLM 作为多模态编码器,并基于 DiT 进行生成。
(2025|Adobe,VLM 作为视觉编码器和文本重写器,DiT 生成)UniFusion:VLM 作为图像生成中的统一编码器
】
在联合训练 VLM 的语言推理与连续动作生成时,常见问题是两者梯度相互干扰,导致:
VLM 语义理解退化
动作专家不稳定
多任务损失难以平衡
GigaBrain-0 采用知识隔离(Knowledge Insulation)技术,使动作学习与 CoT 推理在参数优化上互不冲突。
该机制通过结构化梯度路由,使语义与动作专家能独立学习、共同协作,从而提升泛化能力与训练稳定性。
3.2 视觉与语言处理:基于 PaliGemma2 的多模态编码
为了捕捉任务描述与环境状态之间的对应关系,GigaBrain-0 采用预训练视觉语言模型PaliGemma2作为 backbone,输入视觉为 RGBD 图像,语言为高层自然语言任务描述
模型将视觉 Token、深度 Token、语言 Token 与 trajectory token 共同送入 VLM,通过双向自注意力机制进行全局特征融合。
PaliGemma2 提供高质量语义理解,使模型能解析任务高阶逻辑,如 “将碗放入盘子” 或 “移动篮子至右侧”,并为后续动作生成提供语义 grounding。
3.3 RGB-D 输入建模
为提升在复杂空间布局中的空间推理能力,GigaBrain-0 在预训练中引入 RGB-D 数据。
输入为 B×H×W×4 的四通道图像(RGB + 深度 depth)。
采用 SigLIP 作为图像编码器,并扩展第一层卷积,将深度通道以零初始化权重添加至模型。
在训练中交替随机 Drop depth(将深度替换为零 pad)以增强 RGB-only 推理能力。
SigLIP 在整个训练过程中全参数可学习,以适应具身场景下的深度信息分布。
深度信息增强了空间布局理解、物体几何结构识别与抓取规划。
3.4 具身思维链(Embodied CoT)
受语言模型 CoT 启发,GigaBrain-0将具身操作拆解为多种中间推理 Token,使模型在生成动作之前能进行结构化的空间与任务推理。
Embodied CoT 包含三类关键表示:
1)轨迹 Tokens(Trajectory Tokens)
引入 10 个可学习的轨迹 token,表示末端执行器(End-effector)的 2D 投影轨迹。
每个轨迹包含 10 个关键点(keypoints)。
轨迹 token 全程参加双向自注意力,与视觉上下文交互。
最终通过轻量化 GRU 解码器回归关键点坐标。
此机制实现非自回归的轨迹预测,提升空间推理效率。
2)子目标语言 Tokens(Subgoal Language Tokens)
模型自回归生成自然语言形式的中间目标(例如 “抓住毛巾” “移动到杯子上方”)。
有助于长时间动作规划中的阶段拆解。
3)离散动作 Token(Discrete Action Tokens)
离散 token 加速训练收敛,被用作连续动作生成器的先验输入。
该机制受到 FAST 的启发。
3.5 连续动作生成
动作预测模块采用Diffusion Transformer (DiT)并使用Flow Matching进行训练。
模型输入包含:
噪声动作 chunk
flow-matching 时间步 τ
离散动作 token 与 VLM 输出的语义上下文
模型输出为去噪后的动作 chunk,并通过统一目标函数与语言预测、轨迹回归共同优化。
3.6 联合训练目标
模型总损失函数包括三类:
语言 & 离散动作 token 的 NTP(next-token prediction)损失
基于流匹配的连续动作 chunk 回归损失
轨迹关键点回归损失(GRU 输出与 GT 的 L2 误差)
其中,𝑀 是一个逐标记的掩码(mask),用于指示位置 𝑗 是否属于思维链推理流(子目标语言或离散动作),λ=1。
知识隔离确保无需手工调整多任务权重。
4. GigaBrain-0 数据
数据是 GigaBrain-0 的核心支撑。为实现跨任务、跨场景、跨外观、跨物体布局与跨视角的泛化,GigaBrain-0 构建了目前最全面的 VLA 数据体系,其覆盖范围显著超越 π0、π0.5、G0、GR-3、GR00T 等现有模型。
4.1 真实世界数据
公共数据:包含 AgiBotWorld、RoboMind、Open X-Embodiment 等多源跨平台数据,涵盖基本操作、移动操控等任务。
自采数据:1182小时,使用 Agilex Cobot Magic 和 Agibot G1 平台在 3100 平方米的 14 类真实场景中收集(如图 3 所示)。
数据标注与处理:GigaBrain-0 为减轻人工成本,采用多种自动化标注策略:
深度补全:对 RGB-only 数据,使用 MoGe 自动生成尺度一致的深度图。
自动子目标切分:基于夹爪状态变化(开/闭、抓/放)自动切分长时间轨迹。
子目标语言生成:使用 Qwen-VL-2.5 生成子目标描述,并通过模板与受限词汇表减少偏差。
2D 操作轨迹标注:将 3D 末端执行器坐标投影至头部相机图像平面形成轨迹 keypoints。
样本去重:每任务最多保留 50 条多样示例,避免大量重复演示造成训练低效。
这套流程显著降低人工成本,同时保证多样性与标注质量。
4.2 世界模型生成数据
GigaBrain-0 的核心创新是将世界模型(GigaWorld)作为 “数据引擎”,来生成多样化且物理层面可信的训练序列,从而克服物理数据采集的局限。
(2025|GigaAI,世界模型数据引擎,视频生成,3D 重建,具身智能,VLA 数据生成)GigaWorld-0
GigaWorld 通过多个互补的流程合成数据:
4.2.1 Real2Real Appearance Transfer(真实视频外观增强)
真实机器人数据往往背景固定、纹理单一、光照条件有限。为扩展这些维度,GigaBrain-0 使用 diffusion-based 视频生成模型进行外观转移:
利用 VideoDepthAnything 提取深度
提取 Canny 边缘保持几何结构
控制分支采用 ControlNet
通过文本 prompt 修改材质、颜色、光照
每段真实轨迹生成约 10 个外观增强版本
该方法保持动作语义与动态一致,同时大幅增加视觉变化范围(如图 4)。
4.2.2 View Transfer(多视角渲染与几何一致增强)
为了增强视角泛化能力,引入多视角重渲染管线:
使用深度或 MoGe 深度补全,将原始帧投影到新视角。
对因为视角变化产生的空洞与遮挡区域进行视频补全(基于 DiT)。
使用 IK 重新计算新视角下的机器人关节角度。
利用物理引擎和 URDF 渲染机器人几何结构作为条件输入。
结果是从单一真实轨迹可生成多视角一致版本(如图 5),显著增强模型的几何不变性。
4.2.3 Sim2Real Transfer(模拟场景的真实外观增强)
模拟环境可生成大量结构多样数据,但外观往往与真实世界有差距。
GigaBrain-0 使用 Sim2Real 生成管线将模拟视频转换为逼真图像:
在 Isaac Sim 中构建场景与机器人轨迹
使用 EmbodiedGen 或 ArtVIP 生成高多样性对象
通过 IK 控制末端轨迹保证动作物理合理
使用与 Real2Real 相同的 diffusion-based 机制将模拟图像转化为真实外观
Sim2Real 提供可控多样性(物体位置、布局、光照、纹理),并通过外观增强缩小 sim-to-real gap(如图 6)。
4.2.4 Human-to-Robot Video Transfer(人类视频迁移到机器人执行)
GigaWorld 将大规模人类第一人称视频(如 EgoDex)转换为机器人可执行演示:
使用 SAM2 分割手部
使用 EgoDex 提供的 3D 手腕位置作为目标末端位姿
通过 IK 转成机器人关节角度
渲染机器人 URDF 模型替换人手
diffusion 模型进行空间/外观补全与稳定化
最终形成稳定、机器人一致的 egocentric 演示(如图 7),扩展任务多样性。
4.2.5 文本控制的视频生成 + 逆动力学 (IDM)
GigaWorld 可从单张图像生成不同目标下的未来视频序列:
给定初始帧
输入不同任务语言 prompt
生成多种可能的动作视频(如图 8)
使用逆动力学模型(Inverse Dynamics Models,IDM) )从视频反推对应动作序列
这是扩展 “任务变化” 维度最强的方式之一。
4.2.6 多视角一致视频生成
利用多视角扩散生成技术(多视角噪声拼接):
无需修改扩散结构
输入多视角噪声
输出同步一致的多视角视频(如图 9)
该能力对于操作任务中的多相机联合感知十分关键。
4.2.7 生成质量评估与筛选
世界模型生成不可避免包含瑕疵,因此 GigaWorld 使用多指标自动质检体系:
几何一致性
多视角一致性
文本语义匹配
物理合理性
不合格样本会被丢弃或降级使用,以保持训练数据质量。
5. 实验
5.1 灵巧操作实验
任务:衣物折叠、纸巾准备。
结果:GigaBrain-0 在两项任务中均取得最高成功率(图 10 a 和 b),分别超过基线模型 π_0 30% 和 10%。其深度感知增强了空间意识,实现了在接触丰富场景中的精确协调。
5.2 长时程实验
任务:餐桌清理、果汁准备。
结果:GigaBrain-0 取得最高成功率(图 10 c 和 d)。其具身思维链推理实现了细粒度的、时间有序的规划。
5.3 移动操作实验
任务:搬运箱子、移动洗衣篮。
结果:GigaBrain-0 在两项任务中均取得最高成功率(图 10 e 和 f),超过 π_0 10%。其统一架构结合了全局导航先验和局部操作策略。
5.4 操作泛化实验
外观泛化(图 18):在衣物折叠任务中,通过混合真实数据和 Real2Real 迁移数据,随着生成数据采样概率 α 增加,对多样化纹理和颜色衣物的成功率显著提升,超过 80%(图 17 a)。
放置泛化(图 19):在餐桌清理任务中,通过混合真实数据和 Sim2Real 迁移数据,对新颖物体放置布局的泛化能力大幅提升,成功率超过 90%(图 17 b)。
视角泛化(图 20):在餐桌清理任务中,通过混合真实数据和视角迁移数据,对新颖相机视角的鲁棒性显著提高,成功率超过 80%(图 17 c)。
5.5 设备端实验
GigaBrain-0-Small:轻量级变体,采用紧凑的视觉语言模型 SmolVLM2,并将动作专家参数减少至约 1 亿。
系统级优化:消除冗余内存传输、启用自动混合精度推理、预计算并缓存 RoPE 查找表、对关键组件应用 torch.compile。
结果:在 Orin 平台上,与 π_0 相比,实现了显著更低的延迟和内存占用,参数量仅为 12.5%,但取得了相当的成功率。
6. 结论与未来工作
GigaBrain-0 通过利用世界模型生成的数据,克服了真实机器人数据收集的可扩展性和多样性限制,在从灵巧操作到长时程移动操作的广泛真实世界机器人任务中实现了强大的泛化能力。其 RGBD 输入建模和具身思维链监督等关键架构创新进一步增强了空间推理和顺序决策能力。GigaBrain-0-Small 则证明了 VLA 模型可以变得适合实时、设备端机器人控制。
未来方向:
- 从数据引擎到策略环境:将世界模型整合为强化学习的交互式策略环境。
- 从被动模拟器到主动策略生成器:利用世界模型学习物理动力学和任务结构的通用表示,使其能够直接提出可行的动作序列或子目标。
- 构建自我改进闭环:通过真实世界 rollout 不断改进世界模型,世界模型又生成更好的训练数据,实现真正自主、终身学习的机器人系统。