返回列表 VLA / Vision-Language-Action 每日论文卡
UniHM: Unified Dexterous Hand Manipulation with Vision Language Model
UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列

论文详情

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

2026-02-28 · 原文 · 翻译 · 2603.00732

UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列 提出统一灵巧手分词器(Unified Hand-Dexterous Tokenizer),将异构手部形态映射到共享的离散代码本,实现跨手型泛化和新形态的可扩展性 框架仅基于人类物体交互(HOI)视频数据进行训练,无需大规模真实世界遥操作数据集,即可生成类似人类的操作序列 引入物理引导的动态细化模块,通过分段…

5 分钟读完 6 张阅读卡 ShanghaiTech University(上海科技大学)
一眼看懂 封面预览

UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列

  • UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列
  • 提出统一灵巧手分词器(Unified Hand-Dexterous Tokenizer),将异构手部形态映射到共享的离散代码本,实现跨手型泛化…
  • 框架仅基于人类物体交互(HOI)视频数据进行训练,无需大规模真实世界遥操作数据集,即可生成类似人类的操作序列
Card 01 研究单位

研究单位

  • ShanghaiTech University(上海科技大学)
  • InstAdapt
Card 02 论文概述

论文概述

  • UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列
  • 提出统一灵巧手分词器(Unified Hand-Dexterous Tokenizer),将异构手部形态映射到共享的离散代码本,实现跨手型泛化和新形态的可扩展性
  • 框架仅基于人类物体交互(HOI)视频数据进行训练,无需大规模真实世界遥操作数据集,即可生成类似人类的操作序列
  • 引入物理引导的动态细化模块,通过分段联合优化确保生成序列的物理可行性和时间平滑性
Card 03 核心贡献

核心贡献

  • 统一灵巧手操作框架:首个支持动态灵巧手操作的语言条件化框架,超越静态抓取,直接从图像和开放词汇指令生成操作序列
  • 形态无关代码本:提出跨手型一致的统一 VQ 标记代码本,将异构手部运动学映射到离散动作格,解码为手部特定关节轨迹
  • 物理引导动态轨迹优化:采用基于能量的细化方法,融合生成先验、时间先验(速度-加速度平滑)和接触感知动态优化
  • 无需遥操作的泛化能力:从人类视频学习灵巧操作技能,降低了开发灵巧操作系统的数据收集门槛
Card 04 方法描述

方法描述

  • 自动数据标注:使用 GPT-4o 为 HOI 序列生成开放词汇自然语言指令,并使用 Dex-Retargeting 将 MANO 姿态重定向到五种机械手(Shadow hand、Allegro hand、SVH hand、Leap hand、Panda hand)
  • 统一灵巧手分词器:基于 VQ-VAE 的形态无关代码本,通过知识蒸馏对齐不同手型的编码器潜在空间,支持跨手型姿态迁移
  • VLM 生成:采用 Qwen3-0.6B 作为基础模型,结合 CLIPort 视觉模块进行轨迹规划,使用渐进式掩码训练策略
  • 物理引导细化:构建接触能量、生成先验、时间先验的组合优化目标,使用高斯-牛顿法求解,确保物理可行性和时间一致性
Card 05 数据集与资源

数据集与资源

  • 数据集:DexYCB(582K 帧,1000 序列,20 物体)和 OakInk(230K 帧,100 物体,32 类别)
  • 训练资源:NVIDIA A100 GPU
  • 数据划分:80% 训练/验证(可见),20% 测试(不可见)
Card 06 评估与结果

评估与结果

  • 评估指标:MPJPE(平均每关节位置误差)、FOL(足部轨迹长度)、FPL(足部位置损失)、FID(Frechet Inception 距离)、Diversity(多样性)
  • 主要结果:在 DexYCB 和 OakInk 数据集上,UniHM 在可见和不可见物体上均达到最优性能

- DexYCB Seen: MPJPE=61.40, FOL=23.14, FPL=12.15, FID=31.24

- DexYCB Unseen: MPJPE=63.56, FOL=27.29, FPL=13.06, FID=41.03

- OakInk Seen: MPJPE=52.73, FOL=72.32, FPL=19.86, FID=204.91

- OakInk Unseen: MPJPE=55.18, FOL=78.45, FPL=21.34, FID=218.75

  • 消融实验:验证了统一分词器、物理细化模块和各组件的有效性