GR-3 Technical Report

论文详情

GR-3 Technical Report

2025-07-21 · 原文 · 翻译 · 2507.15493

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型，旨在构建通用的机器人策略。核心目标是让机器人能够严格遵循指令，泛化到未见过的物体、环境和包含抽象概念的复杂指令，并能高效地利用少量人类轨迹数据进行微调以适应新场景。解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。

5 分钟读完 6 张阅读卡 ByteDance Seed

一眼看懂封面预览

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型，旨在构建通用的机器人策略。

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型，旨在构建通用的机器人策略。
核心目标是让机器人能够严格遵循指令，泛化到未见过的物体、环境和包含抽象概念的复杂指令，并能高效地利用少量人类轨迹数据进行微调以适应新场景。
解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。

Card 01 研究单位

研究单位

ByteDance Seed

Card 02 论文概述

论文概述

介绍了一个名为 GR-3 的大规模视觉-语言-动作模型，旨在构建通用的机器人策略。
核心目标是让机器人能够严格遵循指令，泛化到未见过的物体、环境和包含抽象概念的复杂指令，并能高效地利用少量人类轨迹数据进行微调以适应新场景。
解决了VLA模型在处理分布外指令、高效适应新环境以及确保长周期和灵巧任务鲁棒性方面的挑战。

Card 03 核心贡献

核心贡献

提出了 GR-3 模型，这是一个基于预训练VLM的端到端VLA模型，采用流匹配进行动作预测，并引入了提升指令遵循能力的架构设计。
设计了一种混合数据源的训练方案：结合机器人轨迹数据进行模仿学习、与网络规模的视觉-语言数据进行协同训练、以及利用从VR设备收集的人类轨迹数据进行少样本泛化。
提出了创新的模型设计，如在DiT块中引入额外的RMSNorm以提升训练稳定性和指令遵循能力，以及加入“任务状态”作为额外的动作维度进行辅助监督。
推出了ByteMini机器人，一种具有高灵活性和可靠性的双手机器人，与GR-3结合能够完成广泛的真实世界任务。
通过广泛的真实世界实验证明，GR-3 在多项挑战性任务上（如泛化取放、长周期桌面清理、灵巧布料操作）全面超越了最先进的基线方法 π₀。

Card 04 方法描述

方法描述

GR-3 基于预训练的视觉-语言模型 Qwen2.5-VL-3B-Instruct，并采用混合Transformer架构。
模型通过流匹配目标进行动作预测，生成长度为 k 的动作块来控制双手机器人。创新性地在动作DiT块的注意力和前馈网络中引入了RMSNorm，显著提升了训练稳定性和指令遵循能力。
训练方案融合了三种数据源：利用模仿学习和流匹配目标训练机器人轨迹数据；使用下一个令牌预测目标与网络规模的视觉-语言数据（涵盖图像描述、VQA等多种任务）进行协同训练以增强泛化能力；引入从VR设备收集的人类轨迹数据以实现高效的少样本泛化。
引入“任务状态”作为动作的一个维度，并设计相应的训练策略（如随机替换无效指令）来强制模型关注语言指令，从而提升指令遵循能力。

Card 05 数据集与资源

数据集与资源

使用了三种数据：机器人轨迹数据（用于取放、桌面清理、布料操作等任务，总计数百小时的演示）、网络规模的视觉-语言数据（整合了来自多个来源的图像描述、VQA等任务数据）、以及通过 PICO 4 Ultra Enterprise 等VR设备收集的人类轨迹数据。
GR-3 模型总参数量为 4B。
训练使用了 GPU 集群。

Card 06 评估与结果

评估与结果

评估环境：在真实世界中对三个任务进行评估：泛化取放、长周期桌面清理、灵巧布料悬挂。
主要指标：指令遵循率和成功率（对于取放）；平均任务进度（对于长周期桌面清理和布料操作）；子任务成功率（对于指令跟随评估）。
关键结果：在泛化取放任务中，GR-3在未见过的指令和物体上的成功率分别达到 77.1% 和 57.8%，显著优于基线。仅用每个物体10条人类轨迹进行少样本微调后，在未见物体上的成功率提升至 86.7%。在长周期桌面清理任务中，GR-3在指令跟随评估中取得了 97.5% 的成功率，远高于基线的 53.8%，并展现了对多物体、多目标以及无效指令的出色处理能力。在灵巧布料操作任务中，GR-3在基础、位置变化和未见实例设置下分别达到了 86.7%、83.9% 和 75.8% 的平均任务进度，表现优于基线。