提出了 GR-RL 框架，旨在将通用的视觉-语言-动作（VLA）策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。

论文详情

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

2025-12-01 · 原文 · 翻译 · 2512.01801

提出了 GR-RL 框架，旨在将通用的视觉-语言-动作（VLA）策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。解决了现有 VLA 策略在极端精细操作中面临的两个核心瓶颈：人类演示数据中的噪声与次优行为，以及模型训练与实际部署推理之间的不匹配问题。该方法是首个能够自主完成系鞋带任务的学习型策略，成功率达到 83.3%，该任务需要长视野推理、毫米级精度和柔顺的软体交互。

4 分钟读完 6 张阅读卡 ByteDance Seed

一眼看懂封面预览

提出了 GR-RL 框架，旨在将通用的视觉-语言-动作（VLA）策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。

提出了 GR-RL 框架，旨在将通用的视觉-语言-动作（VLA）策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。
解决了现有 VLA 策略在极端精细操作中面临的两个核心瓶颈：人类演示数据中的噪声与次优行为，以及模型训练与实际部署推理之间的不匹配问题。
该方法是首个能够自主完成系鞋带任务的学习型策略，成功率达到 83.3%，该任务需要长视野推理、毫米级精度和柔顺的软体交互。

Card 01 研究单位

研究单位

ByteDance Seed

Card 02 论文概述

论文概述

提出了 GR-RL 框架，旨在将通用的视觉-语言-动作（VLA）策略转化为能够执行长视野、高精度灵巧操作任务的专家策略。
解决了现有 VLA 策略在极端精细操作中面临的两个核心瓶颈：人类演示数据中的噪声与次优行为，以及模型训练与实际部署推理之间的不匹配问题。
该方法是首个能够自主完成系鞋带任务的学习型策略，成功率达到 83.3%，该任务需要长视野推理、毫米级精度和柔顺的软体交互。

Card 03 核心贡献

核心贡献

提出了一种多阶段强化增强训练流程，包含数据过滤、数据增强和在线强化学习三个阶段。
设计了基于离线 RL 的任务进度评估器，利用分布 Critics 的 Q 值作为鲁棒的进度指标，有效过滤了演示数据中的次优片段。
提出了 形态对称性增强 方法，利用双手操作的对称性极大地提升了策略的泛化能力和性能。
引入了在线引导机制，通过在潜空间学习噪声预测器来引导去噪过程，解决了训练与部署的不匹配问题。
实现了首个能够自主穿过多个鞋眼完成系鞋带的学习型策略。

Card 04 方法描述

方法描述

模型采用混合 Transformer 架构，包含一个 VLA 策略网络和一个多任务 Critic 网络，总参数量为 5B。
策略网络基于 GR-3 和 Qwen2.5-VL-3B-Instruct，使用流匹配目标训练动作扩散 Transformer（DiT）。
数据过滤阶段使用 TD3+BC 算法训练分布 Critic，通过稀疏奖励预测任务进度，剔除进度下降的转移数据。
数据增强阶段通过镜像动作、交换左右手腕图像和翻转语言指令来利用双手对称性。
在线 RL 阶段冻结 VLM 主干，训练一个 51.5M 参数的噪声预测器，在潜空间进行结构化探索以优化策略。

Card 05 数据集与资源

数据集与资源

使用人类遥操作演示数据进行训练。
模型总参数量为 5B，在线 RL 噪声预测器参数量为 51.5M。
硬件平台为自研的 ByteMini-v2 移动操作机器人，配备 7-DoF 双臂和轮式移动底座。

Card 06 评估与结果

评估与结果

任务场景为极具挑战性的 系鞋带，要求机器人将鞋带穿过多个鞋眼。
基础模型 GR-3 使用行为克隆的成功率仅为 45.7%。
引入基于进度的数据过滤后，成功率提升至 61.6%；加入形态对称性增强后，成功率进一步提升至 72.7%。
最终经过在线 RL 微调的 GR-RL 模型成功率达到 83.3%。
实验表明，分布 Critic 比非分布 Critic 在稀疏奖励下更鲁棒，且基于 RL 的进度评估器比回归方法更能敏锐捕捉细微失败。