一眼看懂
封面预览
UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列
- UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列
- 提出统一灵巧手分词器(Unified Hand-Dexterous Tokenizer),将异构手部形态映射到共享的离散代码本,实现跨手型泛化…
- 框架仅基于人类物体交互(HOI)视频数据进行训练,无需大规模真实世界遥操作数据集,即可生成类似人类的操作序列
Card 01
研究单位
研究单位
- ShanghaiTech University(上海科技大学)
- InstAdapt
Card 02
论文概述
论文概述
- UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架,能够为可见和不可见物体生成灵巧手操作序列
- 提出统一灵巧手分词器(Unified Hand-Dexterous Tokenizer),将异构手部形态映射到共享的离散代码本,实现跨手型泛化和新形态的可扩展性
- 框架仅基于人类物体交互(HOI)视频数据进行训练,无需大规模真实世界遥操作数据集,即可生成类似人类的操作序列
- 引入物理引导的动态细化模块,通过分段联合优化确保生成序列的物理可行性和时间平滑性
Card 03
核心贡献
核心贡献
- 统一灵巧手操作框架:首个支持动态灵巧手操作的语言条件化框架,超越静态抓取,直接从图像和开放词汇指令生成操作序列
- 形态无关代码本:提出跨手型一致的统一 VQ 标记代码本,将异构手部运动学映射到离散动作格,解码为手部特定关节轨迹
- 物理引导动态轨迹优化:采用基于能量的细化方法,融合生成先验、时间先验(速度-加速度平滑)和接触感知动态优化
- 无需遥操作的泛化能力:从人类视频学习灵巧操作技能,降低了开发灵巧操作系统的数据收集门槛
Card 04
方法描述
方法描述
- 自动数据标注:使用 GPT-4o 为 HOI 序列生成开放词汇自然语言指令,并使用 Dex-Retargeting 将 MANO 姿态重定向到五种机械手(Shadow hand、Allegro hand、SVH hand、Leap hand、Panda hand)
- 统一灵巧手分词器:基于 VQ-VAE 的形态无关代码本,通过知识蒸馏对齐不同手型的编码器潜在空间,支持跨手型姿态迁移
- VLM 生成:采用 Qwen3-0.6B 作为基础模型,结合 CLIPort 视觉模块进行轨迹规划,使用渐进式掩码训练策略
- 物理引导细化:构建接触能量、生成先验、时间先验的组合优化目标,使用高斯-牛顿法求解,确保物理可行性和时间一致性
Card 05
数据集与资源
数据集与资源
- 数据集:DexYCB(582K 帧,1000 序列,20 物体)和 OakInk(230K 帧,100 物体,32 类别)
- 训练资源:NVIDIA A100 GPU
- 数据划分:80% 训练/验证(可见),20% 测试(不可见)
Card 06
评估与结果
评估与结果
- 评估指标:MPJPE(平均每关节位置误差)、FOL(足部轨迹长度)、FPL(足部位置损失)、FID(Frechet Inception 距离)、Diversity(多样性)
- 主要结果:在 DexYCB 和 OakInk 数据集上,UniHM 在可见和不可见物体上均达到最优性能
- DexYCB Seen: MPJPE=61.40, FOL=23.14, FPL=12.15, FID=31.24
- DexYCB Unseen: MPJPE=63.56, FOL=27.29, FPL=13.06, FID=41.03
- OakInk Seen: MPJPE=52.73, FOL=72.32, FPL=19.86, FID=204.91
- OakInk Unseen: MPJPE=55.18, FOL=78.45, FPL=21.34, FID=218.75
- 消融实验:验证了统一分词器、物理细化模块和各组件的有效性