返回列表 VLA / Vision-Language-Action 每日论文卡

GR-3 Technical Report

论文详情

GR-3 Technical Report

2025-07-21 · 原文 · 翻译 · 2507.15493

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型,旨在构建通用的机器人策略。 核心目标是让机器人能够严格遵循指令,泛化到未见过的物体、环境和包含抽象概念的复杂指令,并能高效地利用少量人类轨迹数据进行微调以适应新场景。 解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。

5 分钟读完 6 张阅读卡 ByteDance Seed
一眼看懂 封面预览

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型,旨在构建通用的机器人策略。

  • 介绍了一个名为 GR-3 的大规模视觉-语言-动作模型,旨在构建通用的机器人策略。
  • 核心目标是让机器人能够严格遵循指令,泛化到未见过的物体、环境和包含抽象概念的复杂指令,并能高效地利用少量人类轨迹数据进行微调以适应新场景。
  • 解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。
Card 01 研究单位

研究单位

  • ByteDance Seed
Card 02 论文概述

论文概述

  • 介绍了一个名为 GR-3 的大规模视觉-语言-动作模型,旨在构建通用的机器人策略。
  • 核心目标是让机器人能够严格遵循指令,泛化到未见过的物体、环境和包含抽象概念的复杂指令,并能高效地利用少量人类轨迹数据进行微调以适应新场景。
  • 解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。
Card 03 核心贡献

核心贡献

  • 提出了 GR-3 模型,这是一个基于预训练VLM的端到端VLA模型,采用流匹配进行动作预测,并引入了提升指令遵循能力的架构设计。
  • 设计了一种混合数据源的训练方案:结合机器人轨迹数据进行模仿学习、与网络规模的视觉-语言数据进行协同训练、以及利用从VR设备收集的人类轨迹数据进行少样本泛化。
  • 提出了创新的模型设计,如在DiT块中引入额外的RMSNorm以提升训练稳定性和指令遵循能力,以及加入“任务状态”作为额外的动作维度进行辅助监督。
  • 推出了ByteMini机器人,一种具有高灵活性和可靠性的双手机器人,与GR-3结合能够完成广泛的真实世界任务。
  • 通过广泛的真实世界实验证明,GR-3 在多项挑战性任务上(如泛化取放、长周期桌面清理、灵巧布料操作)全面超越了最先进的基线方法 π₀
Card 04 方法描述

方法描述

  • GR-3 基于预训练的视觉-语言模型 Qwen2.5-VL-3B-Instruct,并采用混合Transformer架构。
  • 模型通过流匹配目标进行动作预测,生成长度为 k 的动作块来控制双手机器人。创新性地在动作DiT块的注意力和前馈网络中引入了RMSNorm,显著提升了训练稳定性和指令遵循能力。
  • 训练方案融合了三种数据源:利用模仿学习和流匹配目标训练机器人轨迹数据;使用下一个令牌预测目标与网络规模的视觉-语言数据(涵盖图像描述、VQA等多种任务)进行协同训练以增强泛化能力;引入从VR设备收集的人类轨迹数据以实现高效的少样本泛化。
  • 引入“任务状态”作为动作的一个维度,并设计相应的训练策略(如随机替换无效指令)来强制模型关注语言指令,从而提升指令遵循能力。
Card 05 数据集与资源

数据集与资源

  • 使用了三种数据:机器人轨迹数据(用于取放、桌面清理、布料操作等任务,总计数百小时的演示)、网络规模的视觉-语言数据(整合了来自多个来源的图像描述、VQA等任务数据)、以及通过 PICO 4 Ultra Enterprise 等VR设备收集的人类轨迹数据
  • GR-3 模型总参数量为 4B
  • 训练使用了 GPU 集群。
Card 06 评估与结果

评估与结果

  • 评估环境:在真实世界中对三个任务进行评估:泛化取放长周期桌面清理灵巧布料悬挂
  • 主要指标:指令遵循率和成功率(对于取放);平均任务进度(对于长周期桌面清理和布料操作);子任务成功率(对于指令跟随评估)。
  • 关键结果:在泛化取放任务中,GR-3在未见过的指令和物体上的成功率分别达到 77.1%57.8%,显著优于基线。仅用每个物体10条人类轨迹进行少样本微调后,在未见物体上的成功率提升至 86.7%。在长周期桌面清理任务中,GR-3在指令跟随评估中取得了 97.5% 的成功率,远高于基线的 53.8%,并展现了对多物体、多目标以及无效指令的出色处理能力。在灵巧布料操作任务中,GR-3在基础、位置变化和未见实例设置下分别达到了 86.7%83.9%75.8% 的平均任务进度,表现优于基线。