提出 GR-Dexter，一个完整的硬件-模型-数据框架，用于在双手机器人上实现基于 VLA 的通用灵巧操作

论文详情

GR-Dexter Technical Report

2025-12-30 · 原文 · 翻译 · 2512.24210

提出 GR-Dexter，一个完整的硬件-模型-数据框架，用于在双手机器人上实现基于 VLA 的通用灵巧操作解决将 VLA 策略扩展到高自由度（21-DoF）灵巧手双手机器人的挑战，包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据，实现长程灵巧操作和泛化能力

5 分钟读完 6 张阅读卡 ByteDance Seed（字节跳动Seed）

一眼看懂封面预览

提出 GR-Dexter，一个完整的硬件-模型-数据框架，用于在双手机器人上实现基于 VLA 的通用灵巧操作

提出 GR-Dexter，一个完整的硬件-模型-数据框架，用于在双手机器人上实现基于 VLA 的通用灵巧操作
解决将 VLA 策略扩展到高自由度（21-DoF）灵巧手双手机器人的挑战，包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据，实现长程灵巧操作和泛化能力

Card 01 研究单位

研究单位

ByteDance Seed（字节跳动Seed）

Card 02 论文概述

论文概述

提出 GR-Dexter，一个完整的硬件-模型-数据框架，用于在双手机器人上实现基于 VLA 的通用灵巧操作
解决将 VLA 策略扩展到高自由度（21-DoF）灵巧手双手机器人的挑战，包括扩展的动作空间、手-物体遮挡问题和高成本的数据收集
核心目标是通过结合视觉语言数据、跨本体数据、人类轨迹数据和机器人轨迹数据，实现长程灵巧操作和泛化能力

Card 03 核心贡献- **ByteDexter V2 机械手**21-DoF 连杆驱动的拟人化机械手，高度 219mm，宽度 108mm，配备高密度压阻式触觉传感器

核心贡献- ByteDexter V2 机械手21-DoF 连杆驱动的拟人化机械手，高度 219mm，宽度 108mm，配备高密度压阻式触觉传感器

双手机器人平台：56-DoF 系统（两个 ByteDexter V2 + 两个 Franka Research 3 机械臂）
直觉式双手套遥操作系统：使用 Meta Quest VR headset 和 Manus 手套，实时将人类手腕和手部动作重定向到机器人关节位置
GR-Dexter VLA 模型：4B 参数的混合 Transformer 架构，基于 Qwen2.5-VL 预训练
数据混合训练策略：整合机器人轨迹、视觉语言数据、跨本体数据集和人类轨迹的统一训练配方

Card 04 方法描述

方法描述

采用 Mixture-of-Transformer 架构构建 VLA 模型
每个动作向量长度为 88，包含：双臂关节动作（7 DoF/臂）、双臂末端姿态（6D/臂）、手部关节动作（16 主动 DoF/手）、指尖位置（3D/手指）
使用 flow-matching 目标训练动作 DiT，使用 next-token-prediction 目标训练 VLM 骨干
跨本体运动重定向：通过指尖对齐标准化不同本体的视觉几何和运动学
动作分块生成：生成 k 步动作分块，促进协调的时序一致的手臂-手部运动

Card 05 数据集与资源

数据集与资源

训练数据：

- 约 20 小时遥操作机器人轨迹

- Fourier ActionNet：约 140 小时双手机器人操作数据

- OpenLoong Baihu：超过 10 万条机器人轨迹

- RoboMIND：10.7 万条演示轨迹，479 个任务，96 个物体类别

- 超过 800 小时人类轨迹数据（使用 Pico VR 设备收集）

模型规模：4B 参数
硬件平台：双 Franka Research 3 机械臂 + 双 ByteDexter V2 手（56-DoF）
视觉输入：1 个自我中心 RGB-D 相机 + 3 个第三人称 RGB-D 相机

Card 06 评估与结果

评估与结果

评估任务：

- 长程灵巧操作（化妆品整理任务）

- 可泛化的拾取放置任务

主要结果：

- 领域内设置：GR-Dexter 达到 0.97 成功率（基础 VLA 为 0.96）

- 分布外设置：GR-Dexter 达到 0.89（基础 VLA 降至 0.64），显著提升泛化能力

- 拾取放置任务：

- 领域内：0.93 成功率

- 未见物体：0.85 成功率

- 未见指令：0.83 成功率

定性结果：成功完成使用手持工具（吸尘器、面包夹）的长程任务，能够抓取未见物体并执行未见指令