一眼看懂
封面预览
论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务
- 论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务
- 旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足,为视觉-语言-动作(VLA)模型提供关键基准
- 填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白
Card 01
研究单位
研究单位
- The University of Tokyo (东京大学)
- AI Robot Association (AIRoA) (AI机器人协会)
- Toyota Motor Corporation (丰田汽车公司)
- Telexistence, Inc. (远程存在公司)
- National Institute of Advanced Industrial Science and Technology (AIST) (产业技术综合研究所)
- Waseda University (早稻田大学)
Card 02
论文概述
论文概述
- 论文介绍了 AIRoA MoMa Dataset,一个大规模真实世界多模态机器人数据集,专注于移动操作任务
- 旨在解决现有机器人数据集在移动操作、接触丰富交互和长程任务方面的不足,为视觉-语言-动作(VLA)模型提供关键基准
- 填补了现有资源缺乏同步力-力矩传感、分层注释和显式失败案例的空白
Card 03
核心贡献
核心贡献
- 大规模多模态数据集,独特整合移动操作、接触丰富交互和长程任务三大要素
- 创新的双层注释模式(子目标+原始动作),支持分层学习和详细失败分析
- 包含约6.6%的显式失败案例,支持错误检测与恢复研究
- 开源标准化流程,将数据转换为 LeRobot v2.1 格式,确保可复现性和广泛可用性
- 提供同步的六轴腕部力-力矩信号,实现物理基础交互学习
Card 04
方法描述
方法描述
- 使用 Toyota Human Support Robot (HSR) 作为数据收集平台,配备4自由度机械臂、升降躯干、1自由度夹爪、2自由度头部和3自由度全向移动底座
- 开发 THSR (Teleoperation system for HSR) 主从遥操作系统,实现一对一关节映射,无需逆运动学计算
- 18名训练操作员通过主从遥操作系统收集数据,记录RGB图像、关节状态、六轴力-力矩信号和内部机器人状态
- 数据重采样至30Hz,采用双层层次结构注释:高层为自然语言描述的短程任务(SHT),低层为原子化的原始动作(PA)
- 完整数据处理流程包括同步、层次注释、隐私过滤、标准化和打包
Card 05
数据集与资源
数据集与资源
- 数据集名称:AIRoA MoMa Dataset
- 数据规模:25,469个片段,约94小时,约92GB
- 任务覆盖:7个主要家庭任务(挂毛巾、开关台灯、烤面包、煮咖啡、拉灯链、整理拖鞋、洗碗机洗碗),涵盖40+子任务
- 传感器模态:双视角RGB图像(480×640)、关节角度、六轴腕部力-力矩信号、遥操作控制命令
- 动作空间:8维绝对动作(5维手臂+1维夹爪+2维头部)和3维底座相对位移,以及11维相对动作表示
- 机器人平台:Toyota HSR(被60+研究机构采用,RoboCup@Home标准平台)
- 数据格式:LeRobot v2.1标准格式,兼容Hugging Face
Card 06
评估与结果
评估与结果
- 数据集统计:平均片段时长13秒,技能分布呈长尾模式,"抓取""打开""放置"等基础操作占主导
- 任务时长分布:集中在4-12秒短中时长范围,适合训练基础反应策略
- 失败案例:约6.6%的失败率,包括抓取失败、操作错误、任务执行问题等,支持错误检测与恢复研究
- 数据质量:多阶段过滤流程(元数据查询、预处理、后处理),结合统计异常检测和人工验证
- 隐私保护:采用YOLO-based人体检测器,自动排除包含人体出现的片段
- 可用性:已在Hugging Face公开发布(datasets/airoa-org/airoa-moma),可直接用于RT-1、π₀、OpenVLA等现有VLA模型