Galaxea Open-World Dataset and G0 Dual-System VLA Model - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出了 Galaxea Open-World Dataset，一个大规模、高质量的开放世界机器人数据集，包含 100K 条演示轨迹，涵盖…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了 Galaxea Open-World Dataset，一个大规模、高质量的开放世界机器人数据集，包含 100K 条演示轨迹，涵盖 150 个任务类别、50 个真实场景和 1,600+ 种独特物体
基于该数据集，提出了 G0 双系统框架，包含 G0-VLM（视觉语言模型用于高层规划）和 G0-VLA（视觉语言动作模型用于精细执行）
核心研究问题：预训练数据如何影响 VLA 模型的性能，特别是跨具身预训练与单具身预训练的比较

Card 03 核心贡献

Card 04 方法描述

G0-VLA 架构：基于 PaLiGemma 的视觉编码器，结合 FAST 动作分词器和 Flow Matching 动作专家
Stage-1 预训练：仅训练 VLM 组件，使用 OXE 数据集（约 1,000 小时）+ Galaxea 数据（500 小时，仅高层描述），采用自回归方式学习动作 token
Stage-2 预训练：加入动作专家，在 Galaxea Open-World Dataset（400 小时带标注数据）上使用 Flow Matching 损失进行单具身专门化训练
后训练：在特定任务上微调，每个任务最多 100 条轨迹
G0-VLM 训练：基于 Qwen2.5-VL，使用子任务标注和 DeepSeek-R1 合成的人类风格指令进行指令微调

Card 05 数据集与资源

Galaxea Open-World Dataset：100K 条轨迹，500 小时数据，150 个任务，50 个场景，1,600+ 物体，58 种操作技能
采集平台：Galaxea R1 Lite 移动双臂机器人（23 自由度，最高速度 1.5 m/s，负载 5 kg）
感知系统：立体 RGB 头摄像头 + 双 Intel RealSense D405 RGB-D 腕部摄像头
数据特点：采用同构遥操作方案，确保自然可行的运动；包含双臂操作和全身控制数据

Card 06 评估与结果

评估基准：Table Bussing（桌面整理）、Microwave Operation（微波炉操作）、Bed Making（铺床）、Blocks Stacking（积木堆叠）
评估指标：任务进度分数（Progress Score），每项任务运行 10 次取平均
关键结果：

- G0 (Full) 在平均进度分数上达到最优，在物体拾取任务中表现突出

- Stage-2 预训练显著优于仅 Stage-1 预训练，在少样本迁移（20 条轨迹）中提升明显

- 单具身预训练对全身控制（底盘、躯干协调）至关重要，跨具身预训练在此类任务上甚至不如从头训练

- G0-VLM 指令准确率比 Gemini-2.5-pro 和 Qwen2.5-VL 基线提升 50% 以上（83.3% vs 32.0% on Table Bussing）