返回列表 VLA / Vision-Language-Action 每日论文卡
MobileManiBench: Simplifying Model Verification for Mobile Manipulation
本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。

论文详情

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

2026-02-05 · 原文 · 翻译 · 2602.05233

本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。 旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置(如移动底盘、灵巧手)的问题。 通过构建自动化数据生成管线,为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。

4 分钟读完 6 张阅读卡 微软亚洲研究院
一眼看懂 封面预览

本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。

  • 本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。
  • 旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置(如移动底盘、灵巧手)的问题。
  • 通过构建自动化数据生成管线,为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。
Card 01 研究单位

研究单位

  • 微软亚洲研究院
  • 悉尼大学
  • 清华大学
Card 02 论文概述

论文概述

  • 本文提出了 MobileManiBench,一个用于移动机器人操作模型验证的大规模仿真基准测试。
  • 旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置(如移动底盘、灵巧手)的问题。
  • 通过构建自动化数据生成管线,为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。
Card 03 核心贡献

核心贡献

  • 提出了 MobileManiBench,这是一个涵盖2种移动机器人、630个物体、100个场景、5种技能、超过10万个任务的大规模基准测试。
  • 开发了基于强化学习的自动化数据生成管线 MobileManiRL,用于高效生成带有多模态标注的高质量操作轨迹。
  • 构建了包含30万条轨迹、多种数据模态的 MobileManiDataset 数据集,并训练了通用VLA模型 MobileManiVLA
  • 系统评估了多种VLA模型,提供了关于感知、推理与控制的关键洞察,加速了具身智能研究。
Card 04 方法描述

方法描述

  • 方法分为两阶段:首先训练一个基于状态的强化学习策略 MobileManiRL,用于生成操作轨迹;然后利用收集的轨迹数据训练通用VLA模型 MobileManiVLA
  • MobileManiRL 采用基于关键点的奖励设计,使用一个通用的奖励函数来驱动机器人夹爪/手点到达物体抓取点并移动到目标点。
  • MobileManiVLA 基于预训练的视觉-语言模型 PaliGemma-2 和扩散Transformer架构,融合多视角RGB-D图像、语言指令和机器人状态进行动作预测。
Card 05 数据集与资源

数据集与资源

  • MobileManiDataset:包含30万条轨迹,数据模态包括语言指令、多视角RGB-深度-分割图像、同步的物体/机器人状态和动作。
  • 模型规模:MobileManiVLA 为3B参数模型。
  • 训练资源:RL策略训练使用32块 NVIDIA V100 GPU;轨迹生成使用8块 NVIDIA RTX A6000 GPU;VLA模型训练使用8块 NVIDIA B200 GPU
Card 06 评估与结果

评估与结果

  • 评估环境:基于 NVIDIA Isaac Sim 仿真环境,在未见过的物体和场景中进行测试。
  • 主要评估指标:任务成功率。
  • 关键实验结果:MobileManiRL 在G1和XHand机器人上分别达到89.6%和92.9%的平均成功率;MobileManiVLA 在更具挑战性的未见物体和场景设置下,平均成功率达到56.7% (G1) 和 57.3% (XHand)。消融实验证明,多视角多模态视觉输入和机器人本体感知状态对性能提升至关重要。