返回列表 VLA / Vision-Language-Action 每日论文卡

Galaxea Open-World Dataset and G0 Dual-System VLA Model

论文详情

Galaxea Open-World Dataset and G0 Dual-System VLA Model

2025-08-30 · 原文 · 翻译 · 2509.00576

论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖 150 个任务类别、50 个真实场景和 1,600+ 种独特物体 基于该数据集,提出了 G0 双系统框架,包含 G0-VLM(视觉语言模型用于高层规划)和 G0-VLA(视觉语言动作模型用于精细执行) 核心研究问题:预训练数据如何影响 VLA 模型的性能,特别是跨具身预训练与…

6 分钟读完 6 张阅读卡 Galaxea Team(Galaxea 公司研究团队)
一眼看懂 封面预览

论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖…

  • 论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖…
  • 基于该数据集,提出了 G0 双系统框架,包含 G0-VLM(视觉语言模型用于高层规划)和 G0-VLA(视觉语言动作模型用于精细执行)
  • 核心研究问题:预训练数据如何影响 VLA 模型的性能,特别是跨具身预训练与单具身预训练的比较
Card 01 研究单位

研究单位

  • Galaxea Team(Galaxea 公司研究团队)
Card 02 论文概述

论文概述

  • 论文提出了 Galaxea Open-World Dataset,一个大规模、高质量的开放世界机器人数据集,包含 100K 条演示轨迹,涵盖 150 个任务类别50 个真实场景1,600+ 种独特物体
  • 基于该数据集,提出了 G0 双系统框架,包含 G0-VLM(视觉语言模型用于高层规划)和 G0-VLA(视觉语言动作模型用于精细执行)
  • 核心研究问题:预训练数据如何影响 VLA 模型的性能,特别是跨具身预训练与单具身预训练的比较
Card 03 核心贡献

核心贡献

  • 发布了 Galaxea Open-World Dataset,首个在真实人类生活工作环境中采集的大规模单具身机器人数据集,具有细粒度子任务级语言标注
  • 提出了 G0 双系统架构,实现 VLM 慢思考规划与 VLA 快执行的异步协同
  • 设计了 三阶段训练课程(跨具身预训练 → 单具身预训练 → 任务特定后训练),系统验证各阶段贡献
  • 发现单具身预训练阶段对模型性能至关重要,跨具身预训练在具身差距较大时可能产生负面影响
  • 构建了涵盖桌面操作、少样本学习和长程移动操作的综合评测基准
Card 04 方法描述

方法描述

  • G0-VLA 架构:基于 PaLiGemma 的视觉编码器,结合 FAST 动作分词器Flow Matching 动作专家
  • Stage-1 预训练:仅训练 VLM 组件,使用 OXE 数据集(约 1,000 小时)+ Galaxea 数据(500 小时,仅高层描述),采用自回归方式学习动作 token
  • Stage-2 预训练:加入动作专家,在 Galaxea Open-World Dataset(400 小时带标注数据)上使用 Flow Matching 损失进行单具身专门化训练
  • 后训练:在特定任务上微调,每个任务最多 100 条轨迹
  • G0-VLM 训练:基于 Qwen2.5-VL,使用子任务标注和 DeepSeek-R1 合成的人类风格指令进行指令微调
Card 05 数据集与资源

数据集与资源

  • Galaxea Open-World Dataset100K 条轨迹500 小时数据,150 个任务50 个场景1,600+ 物体58 种操作技能
  • 采集平台Galaxea R1 Lite 移动双臂机器人(23 自由度,最高速度 1.5 m/s,负载 5 kg)
  • 感知系统:立体 RGB 头摄像头 + 双 Intel RealSense D405 RGB-D 腕部摄像头
  • 数据特点:采用同构遥操作方案,确保自然可行的运动;包含双臂操作和全身控制数据
Card 06 评估与结果

评估与结果

  • 评估基准Table Bussing(桌面整理)、Microwave Operation(微波炉操作)、Bed Making(铺床)、Blocks Stacking(积木堆叠)
  • 评估指标:任务进度分数(Progress Score),每项任务运行 10 次取平均
  • 关键结果

- G0 (Full) 在平均进度分数上达到最优,在物体拾取任务中表现突出

- Stage-2 预训练显著优于仅 Stage-1 预训练,在少样本迁移(20 条轨迹)中提升明显

- 单具身预训练对全身控制(底盘、躯干协调)至关重要,跨具身预训练在此类任务上甚至不如从头训练

- G0-VLM 指令准确率比 Gemini-2.5-proQwen2.5-VL 基线提升 50% 以上(83.3% vs 32.0% on Table Bussing)