返回列表 VLA / Vision-Language-Action 每日论文卡
METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model
论文提出了 METIS,一个用于灵巧操作的视觉-语言-动作(VLA)模型,旨在解决灵巧操作中高质量标注数据稀缺的问题。

论文详情

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

2025-11-21 · 原文 · 翻译 · 2511.17366

论文提出了 METIS,一个用于灵巧操作的视觉-语言-动作(VLA)模型,旨在解决灵巧操作中高质量标注数据稀缺的问题。 研究构建了一个大规模多源自我中心数据集 EgoAtlas,统一了人类和机器人的动作空间,提供了丰富的行为先验。 论文通过提取 motion-aware dynamics(运动感知动态)作为紧凑且离散化的表示,为 VLA 训练提供了高效且富有表现力的监督信号。

4 分钟读完 6 张阅读卡 北京大学 计算机学院多媒体信息处理国家重点实验室
一眼看懂 封面预览

论文提出了 METIS,一个用于灵巧操作的视觉-语言-动作(VLA)模型,旨在解决灵巧操作中高质量标注数据稀缺的问题。

  • 论文提出了 METIS,一个用于灵巧操作的视觉-语言-动作(VLA)模型,旨在解决灵巧操作中高质量标注数据稀缺的问题。
  • 研究构建了一个大规模多源自我中心数据集 EgoAtlas,统一了人类和机器人的动作空间,提供了丰富的行为先验。
  • 论文通过提取 motion-aware dynamics(运动感知动态)作为紧凑且离散化的表示,为 VLA 训练提供了高效且富有表现力的监督信…
Card 01 研究单位

研究单位

  • 北京大学 计算机学院多媒体信息处理国家重点实验室
  • 北京智源人工智能研究院
Card 02 论文概述

论文概述

  • 论文提出了 METIS,一个用于灵巧操作的视觉-语言-动作(VLA)模型,旨在解决灵巧操作中高质量标注数据稀缺的问题。
  • 研究构建了一个大规模多源自我中心数据集 EgoAtlas,统一了人类和机器人的动作空间,提供了丰富的行为先验。
  • 论文通过提取 motion-aware dynamics(运动感知动态)作为紧凑且离散化的表示,为 VLA 训练提供了高效且富有表现力的监督信号。
Card 03 核心贡献

核心贡献

  • 构建了 EgoAtlas 数据集,整合了大规模人类和机器人数据,并在统一的动作空间下对齐。
  • 提出了 motion-aware dynamics,一种用于灵巧手运动的紧凑、离散化表示方法。
  • 开发了 METIS 模型,这是一种在多源自我中心数据上预训练的 VLA 模型,集成了推理与行动能力。
  • 在真实世界的灵巧操作任务中展示了卓越的性能、样本效率和泛化能力。
Card 04 方法描述

方法描述

  • 设计了统一的动作空间,包含 18 维手腕姿势和 30 维指尖位置,以弥合人类与机器人之间的具身差异。
  • 提出了 Motion-Aware Dynamics 模块,包含视觉动态离散化(利用 VQ-VAE 和 DINOv2 特征)和运动动态量化(利用 RQ-VAE 和 PoseNet)。
  • 基于 Prismatic-7B(LLaMA-2 7B 骨干)构建模型,结合 SigLIP 和 DINOv2 视觉编码器,并扩展了 LLM 分词器词汇表以支持动态 Token 的自回归训练。
  • 引入了思维链推理机制,通过特殊 Token([BOA][BOD])实现推理与行动模式的自适应切换。
Card 05 数据集与资源

数据集与资源

  • EgoAtlas 数据集:包含 8 个数据源,共计 343K 条轨迹和 89.72M 个图像-动作对。
  • 硬件平台:Unitree G1 人形机器人,配备 Inspire 6-DoF 灵巧手和 Intel RealSense D435 相机。
  • 训练资源:预训练使用 24 张 NVIDIA H100 GPU,耗时约 72 小时;后训练使用 8 张 GPU。
Card 06 评估与结果

评估与结果

  • 评估环境:6 个真实世界灵巧操作任务(3 个短时域,3 个长时域)。
  • 主要指标:成功率(SR)和进度成功率(PSR)。
  • 关键结果:METIS 在所有任务中实现了最高的平均成功率,在长时域任务中表现尤为突出。
  • 泛化能力:在面对未见背景、光照、物体、杂乱环境等分布外场景时表现出强鲁棒性,并能迁移至更高自由度(22-DoF)的灵巧手。