TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

一眼看懂封面预览

研究旨在解决生成式世界模型（world models）的像素级视觉规划与物理可执行机器人动作之间的"最后一英里"差距

Card 01 研究单位

研究单位

北京的人形机器人创新中心（Beijing Innovation Center of Humanoid Robotics）
北京大学计算机学院多媒体信息处理国家重点实验室（State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University）
香港科技大学（Hong Kong University of Science and Technology）

Card 02 论文概述

研究旨在解决生成式世界模型（world models）的像素级视觉规划与物理可执行机器人动作之间的"最后一英里"差距
提出 TC-IDM（Tool-Centric Inverse Dynamics Model），以工具/夹爪的轨迹作为中间表示，连接高层视觉规划与低层物理控制
采用"计划-翻译"（plan-and-translate）范式，支持多种末端执行器和零样本泛化

Card 03 核心贡献

Card 04 方法描述

- 视觉驱动状态生成：使用 DINOv3 提取语义特征，通过 Gripper MLP Head 预测 1-DoF 夹爪控制信号

- 几何接地姿态生成：使用 SAM 3 生成夹爪掩码，利用 3D 点跟踪器（SpatialTrackerv2）提取密集轨迹，通过刚体对齐恢复 6-DoF 末端执行器动作

Card 05 数据集与资源

Card 06 评估与结果