返回列表 VLA / Vision-Language-Action 每日论文卡
GR-Dexter Technical Report
提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作

论文详情

GR-Dexter Technical Report

2025-12-30 · 原文 · 翻译 · 2512.24210

提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作 解决将 VLA 策略扩展到高自由度(21-DoF)灵巧手双手机器人的挑战,包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集 核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据,实现长程灵巧操作和泛化能力

5 分钟读完 6 张阅读卡 ByteDance Seed(字节跳动Seed)
一眼看懂 封面预览

提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作

  • 提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作
  • 解决将 VLA 策略扩展到高自由度(21-DoF)灵巧手双手机器人的挑战,包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
  • 核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据,实现长程灵巧操作和泛化能力
Card 01 研究单位

研究单位

  • ByteDance Seed(字节跳动Seed)
Card 02 论文概述

论文概述

  • 提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作
  • 解决将 VLA 策略扩展到高自由度(21-DoF)灵巧手双手机器人的挑战,包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
  • 核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据,实现长程灵巧操作和泛化能力
Card 03 核心贡献- **ByteDexter V2 机械手**21-DoF 连杆驱动的拟人化机械手,高度 219mm,宽度 108mm,配备高密度压阻式触觉传感器

核心贡献- **ByteDexter V2 机械手**21-DoF 连杆驱动的拟人化机械手,高度 219mm,宽度 108mm,配备高密度压阻式触觉传感器

  • 双手机器人平台:56-DoF 系统(两个 ByteDexter V2 + 两个 Franka Research 3 机械臂)
  • 直觉式双手套遥操作系统:使用 Meta Quest VR headset 和 Manus 手套,实时将人类手腕和手部动作重定向到机器人关节位置
  • GR-Dexter VLA 模型:4B 参数的混合 Transformer 架构,基于 Qwen2.5-VL 预训练
  • 数据混合训练策略:整合机器人轨迹、视觉语言数据、跨本体数据集和人类轨迹的统一训练配方
Card 04 方法描述

方法描述

  • 采用 Mixture-of-Transformer 架构构建 VLA 模型
  • 每个动作向量长度为 88,包含:双臂关节动作(7 DoF/臂)、双臂末端姿态(6D/臂)、手部关节动作(16 主动 DoF/手)、指尖位置(3D/手指)
  • 使用 flow-matching 目标训练动作 DiT,使用 next-token-prediction 目标训练 VLM 骨干
  • 跨本体运动重定向:通过指尖对齐标准化不同本体的视觉几何和运动学
  • 动作分块生成:生成 k 步动作分块,促进协调的时序一致的手臂-手部运动
Card 05 数据集与资源

数据集与资源

  • 训练数据

- 约 20 小时遥操作机器人轨迹

- Fourier ActionNet:约 140 小时双手机器人操作数据

- OpenLoong Baihu:超过 10 万条机器人轨迹

- RoboMIND:10.7 万条演示轨迹,479 个任务,96 个物体类别

- 超过 800 小时人类轨迹数据(使用 Pico VR 设备收集)

  • 模型规模4B 参数
  • 硬件平台:双 Franka Research 3 机械臂 + 双 ByteDexter V2 手(56-DoF)
  • 视觉输入:1 个自我中心 RGB-D 相机 + 3 个第三人称 RGB-D 相机
Card 06 评估与结果

评估与结果

  • 评估任务

- 长程灵巧操作(化妆品整理任务)

- 可泛化的拾取放置任务

  • 主要结果

- 领域内设置:GR-Dexter 达到 0.97 成功率(基础 VLA 为 0.96)

- 分布外设置:GR-Dexter 达到 0.89(基础 VLA 降至 0.64),显著提升泛化能力

- 拾取放置任务

- 领域内:0.93 成功率

- 未见物体:0.85 成功率

- 未见指令:0.83 成功率

  • 定性结果:成功完成使用手持工具(吸尘器、面包夹)的长程任务,能够抓取未见物体并执行未见指令