一眼看懂
封面预览
提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作
- 提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作
- 解决将 VLA 策略扩展到高自由度(21-DoF)灵巧手双手机器人的挑战,包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
- 核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据,实现长程灵巧操作和泛化能力
Card 01
研究单位
研究单位
- ByteDance Seed(字节跳动Seed)
Card 02
论文概述
论文概述
- 提出 GR-Dexter,一个完整的硬件-模型-数据框架,用于在双手机器人上实现基于 VLA 的通用灵巧操作
- 解决将 VLA 策略扩展到高自由度(21-DoF)灵巧手双手机器人的挑战,包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
- 核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据,实现长程灵巧操作和泛化能力
Card 03
核心贡献- **ByteDexter V2 机械手**21-DoF 连杆驱动的拟人化机械手,高度 219mm,宽度 108mm,配备高密度压阻式触觉传感器
核心贡献- **ByteDexter V2 机械手**21-DoF 连杆驱动的拟人化机械手,高度 219mm,宽度 108mm,配备高密度压阻式触觉传感器
- 双手机器人平台:56-DoF 系统(两个 ByteDexter V2 + 两个 Franka Research 3 机械臂)
- 直觉式双手套遥操作系统:使用 Meta Quest VR headset 和 Manus 手套,实时将人类手腕和手部动作重定向到机器人关节位置
- GR-Dexter VLA 模型:4B 参数的混合 Transformer 架构,基于 Qwen2.5-VL 预训练
- 数据混合训练策略:整合机器人轨迹、视觉语言数据、跨本体数据集和人类轨迹的统一训练配方
Card 04
方法描述
方法描述
- 采用 Mixture-of-Transformer 架构构建 VLA 模型
- 每个动作向量长度为 88,包含:双臂关节动作(7 DoF/臂)、双臂末端姿态(6D/臂)、手部关节动作(16 主动 DoF/手)、指尖位置(3D/手指)
- 使用 flow-matching 目标训练动作 DiT,使用 next-token-prediction 目标训练 VLM 骨干
- 跨本体运动重定向:通过指尖对齐标准化不同本体的视觉几何和运动学
- 动作分块生成:生成 k 步动作分块,促进协调的时序一致的手臂-手部运动
Card 05
数据集与资源
数据集与资源
- 训练数据:
- 约 20 小时遥操作机器人轨迹
- Fourier ActionNet:约 140 小时双手机器人操作数据
- OpenLoong Baihu:超过 10 万条机器人轨迹
- RoboMIND:10.7 万条演示轨迹,479 个任务,96 个物体类别
- 超过 800 小时人类轨迹数据(使用 Pico VR 设备收集)
- 模型规模:4B 参数
- 硬件平台:双 Franka Research 3 机械臂 + 双 ByteDexter V2 手(56-DoF)
- 视觉输入:1 个自我中心 RGB-D 相机 + 3 个第三人称 RGB-D 相机
Card 06
评估与结果
评估与结果
- 评估任务:
- 长程灵巧操作(化妆品整理任务)
- 可泛化的拾取放置任务
- 主要结果:
- 领域内设置:GR-Dexter 达到 0.97 成功率(基础 VLA 为 0.96)
- 分布外设置:GR-Dexter 达到 0.89(基础 VLA 降至 0.64),显著提升泛化能力
- 拾取放置任务:
- 领域内:0.93 成功率
- 未见物体:0.85 成功率
- 未见指令:0.83 成功率
- 定性结果:成功完成使用手持工具(吸尘器、面包夹)的长程任务,能够抓取未见物体并执行未见指令