一眼看懂
封面预览
本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。
- 本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。
- 旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置(如移动底盘、灵巧手)的问题。
- 通过构建自动化数据生成管线,为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。
Card 01
研究单位
研究单位
- 微软亚洲研究院
- 悉尼大学
- 清华大学
Card 02
论文概述
论文概述
- 本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。
- 旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置(如移动底盘、灵巧手)的问题。
- 通过构建自动化数据生成管线,为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。
Card 03
核心贡献
核心贡献
- 提出了 MobileManiBench,这是一个涵盖2种移动机器人、630个物体、100个场景、5种技能、超过10万个任务的大规模基准测试。
- 开发了基于强化学习的自动化数据生成管线 MobileManiRL,用于高效生成带有多模态标注的高质量操作轨迹。
- 构建了包含30万条轨迹、多种数据模态的 MobileManiDataset 数据集,并训练了通用VLA模型 MobileManiVLA。
- 系统评估了多种VLA模型,提供了关于感知、推理与控制的关键洞察,加速了具身智能研究。
Card 04
方法描述
方法描述
- 方法分为两阶段:首先训练一个基于状态的强化学习策略 MobileManiRL,用于生成操作轨迹;然后利用收集的轨迹数据训练通用VLA模型 MobileManiVLA。
- MobileManiRL 采用基于关键点的奖励设计,使用一个通用的奖励函数来驱动机器人夹爪/手点到达物体抓取点并移动到目标点。
- MobileManiVLA 基于预训练的视觉-语言模型 PaliGemma-2 和扩散Transformer架构,融合多视角RGB-D图像、语言指令和机器人状态进行动作预测。
Card 05
数据集与资源
数据集与资源
- MobileManiDataset:包含30万条轨迹,数据模态包括语言指令、多视角RGB-深度-分割图像、同步的物体/机器人状态和动作。
- 模型规模:MobileManiVLA 为3B参数模型。
- 训练资源:RL策略训练使用32块 NVIDIA V100 GPU;轨迹生成使用8块 NVIDIA RTX A6000 GPU;VLA模型训练使用8块 NVIDIA B200 GPU。
Card 06
评估与结果
评估与结果
- 评估环境:基于 NVIDIA Isaac Sim 仿真环境,在未见过的物体和场景中进行测试。
- 主要评估指标:任务成功率。
- 关键实验结果:MobileManiRL 在G1和XHand机器人上分别达到89.6%和92.9%的平均成功率;MobileManiVLA 在更具挑战性的未见物体和场景设置下,平均成功率达到56.7% (G1) 和 57.3% (XHand)。消融实验证明,多视角多模态视觉输入和机器人本体感知状态对性能提升至关重要。