一眼看懂
封面预览
提出了 GR-RL 框架,旨在将通用的视觉-语言-动作(VLA)策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。
- 提出了 GR-RL 框架,旨在将通用的视觉-语言-动作(VLA)策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。
- 解决了现有 VLA 策略在极端精细操作中面临的两个核心瓶颈:人类演示数据中的噪声与次优行为,以及模型训练与实际部署推理之间的不匹配问题。
- 该方法是首个能够自主完成系鞋带任务的学习型策略,成功率达到 83.3%,该任务需要长视野推理、毫米级精度和柔顺的软体交互。
Card 01
研究单位
研究单位
- ByteDance Seed
Card 02
论文概述
论文概述
- 提出了 GR-RL 框架,旨在将通用的视觉-语言-动作(VLA)策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。
- 解决了现有 VLA 策略在极端精细操作中面临的两个核心瓶颈:人类演示数据中的噪声与次优行为,以及模型训练与实际部署推理之间的不匹配问题。
- 该方法是首个能够自主完成系鞋带任务的学习型策略,成功率达到 83.3%,该任务需要长视野推理、毫米级精度和柔顺的软体交互。
Card 03
核心贡献
核心贡献
- 提出了一种多阶段强化增强训练流程,包含数据过滤、数据增强和在线强化学习三个阶段。
- 设计了基于离线 RL 的任务进度评估器,利用分布 Critics 的 Q 值作为鲁棒的进度指标,有效过滤了演示数据中的次优片段。
- 提出了 形态对称性增强 方法,利用双手操作的对称性极大地提升了策略的泛化能力和性能。
- 引入了在线引导机制,通过在潜空间学习噪声预测器来引导去噪过程,解决了训练与部署的不匹配问题。
- 实现了首个能够自主穿过多个鞋眼完成系鞋带的学习型策略。
Card 04
方法描述
方法描述
- 模型采用混合 Transformer 架构,包含一个 VLA 策略网络和一个多任务 Critic 网络,总参数量为 5B。
- 策略网络基于 GR-3 和 Qwen2.5-VL-3B-Instruct,使用流匹配目标训练动作扩散 Transformer(DiT)。
- 数据过滤阶段使用 TD3+BC 算法训练分布 Critic,通过稀疏奖励预测任务进度,剔除进度下降的转移数据。
- 数据增强阶段通过镜像动作、交换左右手腕图像和翻转语言指令来利用双手对称性。
- 在线 RL 阶段冻结 VLM 主干,训练一个 51.5M 参数的噪声预测器,在潜空间进行结构化探索以优化策略。
Card 05
数据集与资源
数据集与资源
- 使用人类遥操作演示数据进行训练。
- 模型总参数量为 5B,在线 RL 噪声预测器参数量为 51.5M。
- 硬件平台为自研的 ByteMini-v2 移动操作机器人,配备 7-DoF 双臂和轮式移动底座。
Card 06
评估与结果
评估与结果
- 任务场景为极具挑战性的 系鞋带,要求机器人将鞋带穿过多个鞋眼。
- 基础模型 GR-3 使用行为克隆的成功率仅为 45.7%。
- 引入基于进度的数据过滤后,成功率提升至 61.6%;加入形态对称性增强后,成功率进一步提升至 72.7%。
- 最终经过在线 RL 微调的 GR-RL 模型成功率达到 83.3%。
- 实验表明,分布 Critic 比非分布 Critic 在稀疏奖励下更鲁棒,且基于 RL 的进度评估器比回归方法更能敏锐捕捉细微失败。