一眼看懂
封面预览
论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖…
- 论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖…
- 基于该数据集,提出了 G0 双系统框架,包含 G0-VLM(视觉语言模型用于高层规划)和 G0-VLA(视觉语言动作模型用于精细执行)
- 核心研究问题:预训练数据如何影响 VLA 模型的性能,特别是跨具身预训练与单具身预训练的比较
Card 01
研究单位
研究单位
- Galaxea Team(Galaxea 公司研究团队)
Card 02
论文概述
论文概述
- 论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖 150 个任务类别、50 个真实场景和 1,600+ 种独特物体
- 基于该数据集,提出了 G0 双系统框架,包含 G0-VLM(视觉语言模型用于高层规划)和 G0-VLA(视觉语言动作模型用于精细执行)
- 核心研究问题:预训练数据如何影响 VLA 模型的性能,特别是跨具身预训练与单具身预训练的比较
Card 03
核心贡献
核心贡献
- 发布了 Galaxea Open-World Dataset,首个在真实人类生活工作环境中采集的大规模单具身机器人数据集,具有细粒度子任务级语言标注
- 提出了 G0 双系统架构,实现 VLM 慢思考规划与 VLA 快执行的异步协同
- 设计了 三阶段训练课程(跨具身预训练 → 单具身预训练 → 任务特定后训练),系统验证各阶段贡献
- 发现单具身预训练阶段对模型性能至关重要,跨具身预训练在具身差距较大时可能产生负面影响
- 构建了涵盖桌面操作、少样本学习和长程移动操作的综合评测基准
Card 04
方法描述
方法描述
- G0-VLA 架构:基于 PaLiGemma 的视觉编码器,结合 FAST 动作分词器和 Flow Matching 动作专家
- Stage-1 预训练:仅训练 VLM 组件,使用 OXE 数据集(约 1,000 小时)+ Galaxea 数据(500 小时,仅高层描述),采用自回归方式学习动作 token
- Stage-2 预训练:加入动作专家,在 Galaxea Open-World Dataset(400 小时带标注数据)上使用 Flow Matching 损失进行单具身专门化训练
- 后训练:在特定任务上微调,每个任务最多 100 条轨迹
- G0-VLM 训练:基于 Qwen2.5-VL,使用子任务标注和 DeepSeek-R1 合成的人类风格指令进行指令微调
Card 05
数据集与资源
数据集与资源
- Galaxea Open-World Dataset:100K 条轨迹,500 小时数据,150 个任务,50 个场景,1,600+ 物体,58 种操作技能
- 采集平台:Galaxea R1 Lite 移动双臂机器人(23 自由度,最高速度 1.5 m/s,负载 5 kg)
- 感知系统:立体 RGB 头摄像头 + 双 Intel RealSense D405 RGB-D 腕部摄像头
- 数据特点:采用同构遥操作方案,确保自然可行的运动;包含双臂操作和全身控制数据
Card 06
评估与结果
评估与结果
- 评估基准:Table Bussing(桌面整理)、Microwave Operation(微波炉操作)、Bed Making(铺床)、Blocks Stacking(积木堆叠)
- 评估指标:任务进度分数(Progress Score),每项任务运行 10 次取平均
- 关键结果:
- G0 (Full) 在平均进度分数上达到最优,在物体拾取任务中表现突出
- Stage-2 预训练显著优于仅 Stage-1 预训练,在少样本迁移(20 条轨迹)中提升明显
- 单具身预训练对全身控制(底盘、躯干协调)至关重要,跨具身预训练在此类任务上甚至不如从头训练
- G0-VLM 指令准确率比 Gemini-2.5-pro 和 Qwen2.5-VL 基线提升 50% 以上(83.3% vs 32.0% on Table Bussing)