返回列表 VLA / Vision-Language-Action 每日论文卡
UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos
论文提出了 UniDex,一个用于通用灵巧手控制的机器人基础套件,旨在解决灵巧操作中数据收集成本高、手部形态异质性强以及控制维度高的问题。

论文详情

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

2026-03-23 · 原文 · 翻译 · 2603.22264

论文提出了 UniDex,一个用于通用灵巧手控制的机器人基础套件,旨在解决灵巧操作中数据收集成本高、手部形态异质性强以及控制维度高的问题。 该套件包含一个大规模机器人中心数据集、一个统一的视觉-语言-动作(VLA)策略以及一个便携式人体数据采集装置。 论文核心目标是利用第一人称视角的人类视频数据构建机器人可执行的轨迹,实现跨灵巧手的技能迁移和高效控制。

6 分钟读完 6 张阅读卡 Tsinghua University
一眼看懂 封面预览

论文提出了 UniDex,一个用于通用灵巧手控制的机器人基础套件,旨在解决灵巧操作中数据收集成本高、手部形态异质性强以及控制维度高的问题。

  • 论文提出了 UniDex,一个用于通用灵巧手控制的机器人基础套件,旨在解决灵巧操作中数据收集成本高、手部形态异质性强以及控制维度高的问题。
  • 该套件包含一个大规模机器人中心数据集、一个统一的视觉-语言-动作(VLA)策略以及一个便携式人体数据采集装置。
  • 论文核心目标是利用第一人称视角的人类视频数据构建机器人可执行的轨迹,实现跨灵巧手的技能迁移和高效控制。
Card 01 研究单位

研究单位

  • Tsinghua University
  • Shanghai Qizhi Institute
  • Sun Yat-sen University
  • The University of North Carolina at Chapel Hill
Card 02 论文概述

论文概述

  • 论文提出了 UniDex,一个用于通用灵巧手控制的机器人基础套件,旨在解决灵巧操作中数据收集成本高、手部形态异质性强以及控制维度高的问题。
  • 该套件包含一个大规模机器人中心数据集、一个统一的视觉-语言-动作(VLA)策略以及一个便携式人体数据采集装置。
  • 论文核心目标是利用第一人称视角的人类视频数据构建机器人可执行的轨迹,实现跨灵巧手的技能迁移和高效控制。
Card 03 核心贡献

核心贡献

  • 构建了 UniDex-Dataset,这是首个涵盖 8 种灵巧手(6-24 DoFs)、包含 900 万帧图像-点云-动作对和超过 5 万条轨迹的大规模统一数据集。
  • 提出了 Function–Actuator–Aligned Space (FAAS) 统一动作空间,将功能相似的执行器映射到共享坐标,实现了跨手技能迁移。
  • 开发了 UniDex-VLA,一个基于 3D 点云输入和 FAAS 动作空间的视觉-语言-行动基础模型,并在真实机器人工具使用任务中达到了最先进的性能。
  • 设计了 UniDex-Cap 便携式采集装置,支持人体数据与机器人数据的协同训练,显著降低了对昂贵机器人遥操作数据的依赖。
Card 04 方法描述

方法描述

  • Human-Robot Transformation Pipeline:采用人机协同重定向程序,通过引入 6 自由度“虚拟基座”偏移并利用指尖逆运动学,将人体指尖轨迹转换为机器人可执行轨迹,同时屏蔽视觉流中的人手以减小视觉差异。
  • FAAS 统一动作空间:定义了一个 82 维的动作向量,前 18 维编码手腕位姿,后 64 维编码关节指令,根据功能角色将不同灵巧手的执行器对齐到统一索引。
  • UniDex-VLA 架构:基于 $\pi_0$ 架构改进,将 2D 视觉编码器替换为 Uni3D 以处理点云输入,输入包括单视图彩色点云、语言指令和本体感知状态,输出 FAAS 空间下的动作块。
  • 使用条件流匹配目标进行训练,并通过前向欧拉积分生成去噪动作块。
Card 05 数据集与资源

数据集与资源

  • 源数据集:基于 H2O, HOI4D, HOT3D, 和 TACO 四个第一人称 RGB-D 人体操作视频数据集构建。
  • UniDex-Dataset 规模:包含 900 万帧图像-点云-动作对,超过 52K 条轨迹,覆盖 8 种灵巧手,自由度范围从 6 到 24。
  • 灵巧手平台:Inspire, Leap, Shadow, Allegro, Ability, Oymotion, Xhand, Wuji。
  • 训练资源:在 UniDex-Dataset 上预训练,并在真实世界任务中使用每任务 50 次演示进行微调。
Card 06 评估与结果

评估与结果

  • 实验设置:在 7 自由度 Franka 机械臂上搭载 Inspire HandWuji HandOymotion Hand,执行 5 项具有挑战性的工具使用任务(如冲咖啡、扫物、浇花、剪袋子、用鼠标)。
  • 性能指标UniDex-VLA 平均任务进度达到 81%,最终成功率达到 76%,显著优于 $\pi_0$ (38% 进度) 和 Diffusion Policy 等基线方法。
  • 泛化能力:展示了强大的空间泛化(结合 DemoGen 数据增强)、未见物体泛化(不同水壶)和零样本跨手机能迁移(从 Inspire 迁移至 Wuji 和 Oymotion)。
  • 协同训练效果:通过 UniDex-Cap 收集人体演示与机器人数据协同训练,发现约 2 段人类演示可替代 1 段机器人演示,且人类演示收集速度比机器人遥操作快约 5.2 倍,有效降低了数据成本。