本文提出了 MobileManiBench，一个用于移动机器人操作模型验证的大规模仿真基准测试。

论文详情

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

2026-02-05 · 原文 · 翻译 · 2602.05233

本文提出了 MobileManiBench，一个用于移动机器人操作模型验证的大规模仿真基准测试。旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置（如移动底盘、灵巧手）的问题。通过构建自动化数据生成管线，为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。

4 分钟读完 6 张阅读卡微软亚洲研究院

一眼看懂封面预览

本文提出了 MobileManiBench，一个用于移动机器人操作模型验证的大规模仿真基准测试。

本文提出了 MobileManiBench，一个用于移动机器人操作模型验证的大规模仿真基准测试。
旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置（如移动底盘、灵巧手）的问题。
通过构建自动化数据生成管线，为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。

Card 01 研究单位

研究单位

微软亚洲研究院
悉尼大学
清华大学

Card 02 论文概述

论文概述

本文提出了 MobileManiBench，一个用于移动机器人操作模型验证的大规模仿真基准测试。
旨在解决当前视觉-语言-动作模型过度依赖静态桌面场景远程操作数据、难以高效验证新硬件配置（如移动底盘、灵巧手）的问题。
通过构建自动化数据生成管线，为研究机器人具身、传感模态和策略架构提供了一个可扩展、低成本、可控的测试平台。

Card 03 核心贡献

核心贡献

提出了 MobileManiBench，这是一个涵盖2种移动机器人、630个物体、100个场景、5种技能、超过10万个任务的大规模基准测试。
开发了基于强化学习的自动化数据生成管线 MobileManiRL，用于高效生成带有多模态标注的高质量操作轨迹。
构建了包含30万条轨迹、多种数据模态的 MobileManiDataset 数据集，并训练了通用VLA模型 MobileManiVLA。
系统评估了多种VLA模型，提供了关于感知、推理与控制的关键洞察，加速了具身智能研究。

Card 04 方法描述

方法描述

方法分为两阶段：首先训练一个基于状态的强化学习策略 MobileManiRL，用于生成操作轨迹；然后利用收集的轨迹数据训练通用VLA模型 MobileManiVLA。
MobileManiRL 采用基于关键点的奖励设计，使用一个通用的奖励函数来驱动机器人夹爪/手点到达物体抓取点并移动到目标点。
MobileManiVLA 基于预训练的视觉-语言模型 PaliGemma-2 和扩散Transformer架构，融合多视角RGB-D图像、语言指令和机器人状态进行动作预测。

Card 05 数据集与资源

数据集与资源

MobileManiDataset：包含30万条轨迹，数据模态包括语言指令、多视角RGB-深度-分割图像、同步的物体/机器人状态和动作。
模型规模：MobileManiVLA 为3B参数模型。
训练资源：RL策略训练使用32块 NVIDIA V100 GPU；轨迹生成使用8块 NVIDIA RTX A6000 GPU；VLA模型训练使用8块 NVIDIA B200 GPU。

Card 06 评估与结果

评估与结果

评估环境：基于 NVIDIA Isaac Sim 仿真环境，在未见过的物体和场景中进行测试。
主要评估指标：任务成功率。
关键实验结果：MobileManiRL 在G1和XHand机器人上分别达到89.6%和92.9%的平均成功率；MobileManiVLA 在更具挑战性的未见物体和场景设置下，平均成功率达到56.7% (G1) 和 57.3% (XHand)。消融实验证明，多视角多模态视觉输入和机器人本体感知状态对性能提升至关重要。