一眼看懂
封面预览
提出 MoT-HRA,一种分层视觉-语言-动作框架,用于从大规模人类演示中学习人类意图先验知识
- 提出 MoT-HRA,一种分层视觉-语言-动作框架,用于从大规模人类演示中学习人类意图先验知识
- 构建 HA-2.2M 数据集,包含 220 万个动作-语言 episodes,通过手部中心过滤、空间重建、时间分割和语言对齐从异构人类视频重建…
- 解决核心问题:人类视频包含丰富的操作先验,但原始观察混淆了场景理解、人体运动和具体化特定动作,直接用于机器人学习困难
Card 01
研究单位
研究单位
- 清华大学 (Tsinghua University): Yifan Xie, Guangyu Chen, Jinkun Liu, Wenbo Ding (通讯作者)
- 字节跳动 (ByteDance): Yifan Xie, Yu An Wang, Yu Sun (项目负责人)
Card 02
论文概述
论文概述
- 提出 MoT-HRA,一种分层视觉-语言-动作框架,用于从大规模人类演示中学习人类意图先验知识
- 构建 HA-2.2M 数据集,包含 220 万个动作-语言 episodes,通过手部中心过滤、空间重建、时间分割和语言对齐从异构人类视频重建而来
- 解决核心问题:人类视频包含丰富的操作先验,但原始观察混淆了场景理解、人体运动和具体化特定动作,直接用于机器人学习困难
Card 03
核心贡献
核心贡献
- HA-2.2M 数据集:从异构网络视频和自我中心视频构建的大规模人类演示数据集,提供时间相干的动作-语言 episodes 和重建的手部中心空间监督
- MoT-HRA 架构:分层 Mixture-of-Transformer VLA 架构,将空间轨迹 grounding、潜在人类意图建模和具体化特定机器人动作生成分离,减少人类先验学习与机器人策略学习之间的破坏性干扰
- 知识绝缘机制:通过共享注意力 trunk 和只读 key-value 转移实现知识绝缘,使下游机器人控制可使用人类先验而不覆盖上游空间和意图表示
- 三专家分解:视觉-语言专家预测具体化无关的 3D 轨迹,意图专家将 MANO 风格手部运动建模为潜在人类运动先验,细粒度专家将意图感知表示映射到机器人动作 chunks
Card 04
方法描述
方法描述
- 数据构建 pipeline:粗过滤(使用 Gemini 和 V-JEPA 分类器筛选手部中心动作片段)→ 视角和背景重建(使用 VitPose 定位手部、HaMeR 估计 MANO 手部姿态、Depth Anything 3 预测单目深度)→ 细过滤(V-JEPA 时间分割、Gemini 合并片段并生成动作描述)
- MoT-HRA 架构:共享注意力 trunk 提供多模态上下文,三专家通过只读 key-value 缓存进行知识绝缘;视觉-语言专家使用自回归生成离散化 3D 路点;意图专家使用条件流匹配将噪声去噪为 MANO 风格手部序列;细粒度专家使用流匹配将意图感知表示映射到机器人动作 chunks
- 联合训练策略:多任务目标,人类演示 episodes 监督轨迹和意图专家,机器人操作 episodes 监督轨迹和细粒度专家
Card 05
数据集与资源
数据集与资源
- 训练数据:HA-2.2M (220万 episodes) + AgiBot-World 数据集
- 数据来源:HowTo100M (140万), Ego4D (63万), Epic-Kitchens (12万), Something-Something-V2 (5万)
- 训练资源:64 块 NVIDIA H20 GPU,全局 batch size 2048,20000 步训练
- 模型配置:chunk horizon H=15,图像尺寸 224×224,学习率 2.5×10⁻⁵,MANO 生成使用 CFG scale 6.0
Card 06
评估与结果
评估与结果
- 手部运动生成:在 Ego4D 和 OakInk 数据集上评估,MoT-HRA 在 ADE、DTW、Rot、Joint-Rot 等指标上优于 Being-H0 和 VITRA 基线
- SimplerEnv Benchmark:在 WidowX 任务上平均成功率 66.1%,优于 RoboVLMs (37.5%)、OpenVLA-OFT (41.7%)、π₀ (27.1%)、SpatialVLA (42.7%)、ThinkACT (43.8%) 等基线
- 真实机器人实验:在平行夹爪和灵巧手两种具体化上测试 Clean 和 Pouring 任务,MoT-HRA 在物体位置、类别和颜色分布外变化下表现更可靠
- 消融实验:验证了 3D 轨迹分支、意图专家和知识绝缘各组件的贡献,证明层次化结构带来的性能提升