提出 MoT-HRA，一种分层视觉-语言-动作框架，用于从大规模人类演示中学习人类意图先验知识

论文详情

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

2026-04-27 · 原文 · 翻译 · 2604.24681

提出 MoT-HRA，一种分层视觉-语言-动作框架，用于从大规模人类演示中学习人类意图先验知识构建 HA-2.2M 数据集，包含 220 万个动作-语言 episodes，通过手部中心过滤、空间重建、时间分割和语言对齐从异构人类视频重建而来解决核心问题：人类视频包含丰富的操作先验，但原始观察混淆了场景理解、人体运动和具体化特定动作，直接用于机器人学习困难

6 分钟读完 6 张阅读卡清华大学 (Tsinghua University): Yifan Xie, Guangyu Chen…

一眼看懂封面预览

提出 MoT-HRA，一种分层视觉-语言-动作框架，用于从大规模人类演示中学习人类意图先验知识

提出 MoT-HRA，一种分层视觉-语言-动作框架，用于从大规模人类演示中学习人类意图先验知识
构建 HA-2.2M 数据集，包含 220 万个动作-语言 episodes，通过手部中心过滤、空间重建、时间分割和语言对齐从异构人类视频重建…
解决核心问题：人类视频包含丰富的操作先验，但原始观察混淆了场景理解、人体运动和具体化特定动作，直接用于机器人学习困难

Card 01 研究单位

研究单位

清华大学 (Tsinghua University): Yifan Xie, Guangyu Chen, Jinkun Liu, Wenbo Ding (通讯作者)
字节跳动 (ByteDance): Yifan Xie, Yu An Wang, Yu Sun (项目负责人)

Card 02 论文概述

论文概述

提出 MoT-HRA，一种分层视觉-语言-动作框架，用于从大规模人类演示中学习人类意图先验知识
构建 HA-2.2M 数据集，包含 220 万个动作-语言 episodes，通过手部中心过滤、空间重建、时间分割和语言对齐从异构人类视频重建而来
解决核心问题：人类视频包含丰富的操作先验，但原始观察混淆了场景理解、人体运动和具体化特定动作，直接用于机器人学习困难

Card 03 核心贡献

核心贡献

HA-2.2M 数据集：从异构网络视频和自我中心视频构建的大规模人类演示数据集，提供时间相干的动作-语言 episodes 和重建的手部中心空间监督
MoT-HRA 架构：分层 Mixture-of-Transformer VLA 架构，将空间轨迹 grounding、潜在人类意图建模和具体化特定机器人动作生成分离，减少人类先验学习与机器人策略学习之间的破坏性干扰
知识绝缘机制：通过共享注意力 trunk 和只读 key-value 转移实现知识绝缘，使下游机器人控制可使用人类先验而不覆盖上游空间和意图表示
三专家分解：视觉-语言专家预测具体化无关的 3D 轨迹，意图专家将 MANO 风格手部运动建模为潜在人类运动先验，细粒度专家将意图感知表示映射到机器人动作 chunks

Card 04 方法描述

方法描述

数据构建 pipeline：粗过滤（使用 Gemini 和 V-JEPA 分类器筛选手部中心动作片段）→ 视角和背景重建（使用 VitPose 定位手部、HaMeR 估计 MANO 手部姿态、Depth Anything 3 预测单目深度）→ 细过滤（V-JEPA 时间分割、Gemini 合并片段并生成动作描述）
MoT-HRA 架构：共享注意力 trunk 提供多模态上下文，三专家通过只读 key-value 缓存进行知识绝缘；视觉-语言专家使用自回归生成离散化 3D 路点；意图专家使用条件流匹配将噪声去噪为 MANO 风格手部序列；细粒度专家使用流匹配将意图感知表示映射到机器人动作 chunks
联合训练策略：多任务目标，人类演示 episodes 监督轨迹和意图专家，机器人操作 episodes 监督轨迹和细粒度专家

Card 05 数据集与资源

数据集与资源

训练数据：HA-2.2M (220万 episodes) + AgiBot-World 数据集
数据来源：HowTo100M (140万), Ego4D (63万), Epic-Kitchens (12万), Something-Something-V2 (5万)
训练资源：64 块 NVIDIA H20 GPU，全局 batch size 2048，20000 步训练
模型配置：chunk horizon H=15，图像尺寸 224×224，学习率 2.5×10⁻⁵，MANO 生成使用 CFG scale 6.0

Card 06 评估与结果

评估与结果

手部运动生成：在 Ego4D 和 OakInk 数据集上评估，MoT-HRA 在 ADE、DTW、Rot、Joint-Rot 等指标上优于 Being-H0 和 VITRA 基线
SimplerEnv Benchmark：在 WidowX 任务上平均成功率 66.1%，优于 RoboVLMs (37.5%)、OpenVLA-OFT (41.7%)、π₀ (27.1%)、SpatialVLA (42.7%)、ThinkACT (43.8%) 等基线
真实机器人实验：在平行夹爪和灵巧手两种具体化上测试 Clean 和 Pouring 任务，MoT-HRA 在物体位置、类别和颜色分布外变化下表现更可靠
消融实验：验证了 3D 轨迹分支、意图专家和知识绝缘各组件的贡献，证明层次化结构带来的性能提升