UniHM: Unified Dexterous Hand Manipulation with Vision Language Model - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架，能够为可见和不可见物体生成灵巧手操作序列

Card 01 研究单位

研究单位

Card 02 论文概述

UniHM 是首个统一的、基于自由形式语言指令的灵巧手动态操作框架，能够为可见和不可见物体生成灵巧手操作序列
提出统一灵巧手分词器（Unified Hand-Dexterous Tokenizer），将异构手部形态映射到共享的离散代码本，实现跨手型泛化和新形态的可扩展性
框架仅基于人类物体交互（HOI）视频数据进行训练，无需大规模真实世界遥操作数据集，即可生成类似人类的操作序列
引入物理引导的动态细化模块，通过分段联合优化确保生成序列的物理可行性和时间平滑性

Card 03 核心贡献

Card 04 方法描述

自动数据标注：使用 GPT-4o 为 HOI 序列生成开放词汇自然语言指令，并使用 Dex-Retargeting 将 MANO 姿态重定向到五种机械手（Shadow hand、Allegro hand、SVH hand、Leap hand、Panda hand）
统一灵巧手分词器：基于 VQ-VAE 的形态无关代码本，通过知识蒸馏对齐不同手型的编码器潜在空间，支持跨手型姿态迁移
VLM 生成：采用 Qwen3-0.6B 作为基础模型，结合 CLIPort 视觉模块进行轨迹规划，使用渐进式掩码训练策略
物理引导细化：构建接触能量、生成先验、时间先验的组合优化目标，使用高斯-牛顿法求解，确保物理可行性和时间一致性

Card 05 数据集与资源

Card 06 评估与结果

评估指标：MPJPE（平均每关节位置误差）、FOL（足部轨迹长度）、FPL（足部位置损失）、FID（Frechet Inception 距离）、Diversity（多样性）
主要结果：在 DexYCB 和 OakInk 数据集上，UniHM 在可见和不可见物体上均达到最优性能

- DexYCB Seen: MPJPE=61.40, FOL=23.14, FPL=12.15, FID=31.24

- DexYCB Unseen: MPJPE=63.56, FOL=27.29, FPL=13.06, FID=41.03

- OakInk Seen: MPJPE=52.73, FOL=72.32, FPL=19.86, FID=204.91

- OakInk Unseen: MPJPE=55.18, FOL=78.45, FPL=21.34, FID=218.75