论文介绍了 AIRoA MoMa Dataset，一个大规模真实世界多模态机器人数据集，专注于移动操作任务

论文详情

AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

2025-09-29 · 原文 · 翻译 · 2509.25032

论文介绍了 AIRoA MoMa Dataset，一个大规模真实世界多模态机器人数据集，专注于移动操作任务旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足，为视觉-语言-动作（VLA）模型提供关键基准填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白

6 分钟读完 6 张阅读卡 The University of Tokyo (东京大学)

一眼看懂封面预览

论文介绍了 AIRoA MoMa Dataset，一个大规模真实世界多模态机器人数据集，专注于移动操作任务

论文介绍了 AIRoA MoMa Dataset，一个大规模真实世界多模态机器人数据集，专注于移动操作任务
旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足，为视觉-语言-动作（VLA）模型提供关键基准
填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白

Card 01 研究单位

研究单位

The University of Tokyo (东京大学)
AI Robot Association (AIRoA) (AI机器人协会)
Toyota Motor Corporation (丰田汽车公司)
Telexistence, Inc. (远程存在公司)
National Institute of Advanced Industrial Science and Technology (AIST) (产业技术综合研究所)
Waseda University (早稻田大学)

Card 02 论文概述

论文概述

论文介绍了 AIRoA MoMa Dataset，一个大规模真实世界多模态机器人数据集，专注于移动操作任务
旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足，为视觉-语言-动作（VLA）模型提供关键基准
填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白

Card 03 核心贡献

核心贡献

大规模多模态数据集，独特整合移动操作、接触丰富交互和长程任务三大要素
创新的双层注释模式（子目标+原始动作），支持分层学习和详细失败分析
包含约6.6%的显式失败案例，支持错误检测与恢复研究
开源标准化流程，将数据转换为 LeRobot v2.1 格式，确保可复现性和广泛可用性
提供同步的六轴腕部力-力矩信号，实现物理基础交互学习

Card 04 方法描述

方法描述

使用 Toyota Human Support Robot (HSR) 作为数据收集平台，配备4自由度机械臂、升降躯干、1自由度夹爪、2自由度头部和3自由度全向移动底座
开发 THSR (Teleoperation system for HSR) 主从遥操作系统，实现一对一关节映射，无需逆运动学计算
18名训练操作员通过主从遥操作系统收集数据，记录RGB图像、关节状态、六轴力-力矩信号和内部机器人状态
数据重采样至30Hz，采用双层层次结构注释：高层为自然语言描述的短程任务（SHT），低层为原子化的原始动作（PA）
完整数据处理流程包括同步、层次注释、隐私过滤、标准化和打包

Card 05 数据集与资源

数据集与资源

数据集名称：AIRoA MoMa Dataset
数据规模：25,469个片段，约94小时，约92GB
任务覆盖：7个主要家庭任务（挂毛巾、开关台灯、烤面包、煮咖啡、拉灯链、整理拖鞋、洗碗机洗碗），涵盖40+子任务
传感器模态：双视角RGB图像（480×640）、关节角度、六轴腕部力-力矩信号、遥操作控制命令
动作空间：8维绝对动作（5维手臂+1维夹爪+2维头部）和3维底座相对位移，以及11维相对动作表示
机器人平台：Toyota HSR（被60+研究机构采用，RoboCup@Home标准平台）
数据格式：LeRobot v2.1标准格式，兼容Hugging Face

Card 06 评估与结果

评估与结果

数据集统计：平均片段时长13秒，技能分布呈长尾模式，"抓取""打开""放置"等基础操作占主导
任务时长分布：集中在4-12秒短中时长范围，适合训练基础反应策略
失败案例：约6.6%的失败率，包括抓取失败、操作错误、任务执行问题等，支持错误检测与恢复研究
数据质量：多阶段过滤流程（元数据查询、预处理、后处理），结合统计异常检测和人工验证
隐私保护：采用YOLO-based人体检测器，自动排除包含人体出现的片段
可用性：已在Hugging Face公开发布（datasets/airoa-org/airoa-moma），可直接用于RT-1、π₀、OpenVLA等现有VLA模型