返回列表 VLA / Vision-Language-Action 每日论文卡
AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务

论文详情

AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

2025-09-29 · 原文 · 翻译 · 2509.25032

论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务 旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足,为视觉-语言-动作(VLA)模型提供关键基准 填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白

6 分钟读完 6 张阅读卡 The University of Tokyo (东京大学)
一眼看懂 封面预览

论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务

  • 论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务
  • 旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足,为视觉-语言-动作(VLA)模型提供关键基准
  • 填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白
Card 01 研究单位

研究单位

  • The University of Tokyo (东京大学)
  • AI Robot Association (AIRoA) (AI机器人协会)
  • Toyota Motor Corporation (丰田汽车公司)
  • Telexistence, Inc. (远程存在公司)
  • National Institute of Advanced Industrial Science and Technology (AIST) (产业技术综合研究所)
  • Waseda University (早稻田大学)
Card 02 论文概述

论文概述

  • 论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务
  • 旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足,为视觉-语言-动作(VLA)模型提供关键基准
  • 填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白
Card 03 核心贡献

核心贡献

  • 大规模多模态数据集,独特整合移动操作、接触丰富交互和长程任务三大要素
  • 创新的双层注释模式(子目标+原始动作),支持分层学习和详细失败分析
  • 包含约6.6%的显式失败案例,支持错误检测与恢复研究
  • 开源标准化流程,将数据转换为 LeRobot v2.1 格式,确保可复现性和广泛可用性
  • 提供同步的六轴腕部力-力矩信号,实现物理基础交互学习
Card 04 方法描述

方法描述

  • 使用 Toyota Human Support Robot (HSR) 作为数据收集平台,配备4自由度机械臂、升降躯干、1自由度夹爪、2自由度头部和3自由度全向移动底座
  • 开发 THSR (Teleoperation system for HSR) 主从遥操作系统,实现一对一关节映射,无需逆运动学计算
  • 18名训练操作员通过主从遥操作系统收集数据,记录RGB图像、关节状态、六轴力-力矩信号和内部机器人状态
  • 数据重采样至30Hz,采用双层层次结构注释:高层为自然语言描述的短程任务(SHT),低层为原子化的原始动作(PA)
  • 完整数据处理流程包括同步、层次注释、隐私过滤、标准化和打包
Card 05 数据集与资源

数据集与资源

  • 数据集名称:AIRoA MoMa Dataset
  • 数据规模:25,469个片段,约94小时,约92GB
  • 任务覆盖:7个主要家庭任务(挂毛巾、开关台灯、烤面包、煮咖啡、拉灯链、整理拖鞋、洗碗机洗碗),涵盖40+子任务
  • 传感器模态:双视角RGB图像(480×640)、关节角度、六轴腕部力-力矩信号、遥操作控制命令
  • 动作空间:8维绝对动作(5维手臂+1维夹爪+2维头部)和3维底座相对位移,以及11维相对动作表示
  • 机器人平台:Toyota HSR(被60+研究机构采用,RoboCup@Home标准平台)
  • 数据格式:LeRobot v2.1标准格式,兼容Hugging Face
Card 06 评估与结果

评估与结果

  • 数据集统计:平均片段时长13秒,技能分布呈长尾模式,"抓取""打开""放置"等基础操作占主导
  • 任务时长分布:集中在4-12秒短中时长范围,适合训练基础反应策略
  • 失败案例:约6.6%的失败率,包括抓取失败、操作错误、任务执行问题等,支持错误检测与恢复研究
  • 数据质量:多阶段过滤流程(元数据查询、预处理、后处理),结合统计异常检测和人工验证
  • 隐私保护:采用YOLO-based人体检测器,自动排除包含人体出现的片段
  • 可用性:已在Hugging Face公开发布(datasets/airoa-org/airoa-moma),可直接用于RT-1、π₀、OpenVLA等现有VLA模型