返回列表 VLA / Vision-Language-Action 每日论文卡
MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
论文提出了 MobileVLA-R1,一个用于四足机器人的统一视觉-语言-行动(VLA)框架,旨在解决将自然语言指令接地到连续控制这一根本挑战。

论文详情

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

2025-11-22 · 原文 · 翻译 · 2511.17889

论文提出了 MobileVLA-R1,一个用于四足机器人的统一视觉-语言-行动(VLA)框架,旨在解决将自然语言指令接地到连续控制这一根本挑战。 现有方法难以连接高层语义推理与低层执行,导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。 论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。

4 分钟读完 6 张阅读卡 北京大学
一眼看懂 封面预览

论文提出了 MobileVLA-R1,一个用于四足机器人的统一视觉-语言-行动(VLA)框架,旨在解决将自然语言指令接地到连续控制这一根本挑战。

  • 论文提出了 MobileVLA-R1,一个用于四足机器人的统一视觉-语言-行动(VLA)框架,旨在解决将自然语言指令接地到连续控制这一根本挑战。
  • 现有方法难以连接高层语义推理与低层执行,导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。
  • 论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。
Card 01 研究单位

研究单位

  • 北京大学
Card 02 论文概述

论文概述

  • 论文提出了 MobileVLA-R1,一个用于四足机器人的统一视觉-语言-行动(VLA)框架,旨在解决将自然语言指令接地到连续控制这一根本挑战。
  • 现有方法难以连接高层语义推理与低层执行,导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。
  • 论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。
Card 03 核心贡献

核心贡献

  • 提出了 MobileVLA-R1,一种分层VLA框架,通过思维链生成和连续控制,显式连接了语义推理与电机控制。
  • 设计了一个结合监督CoT对齐GRPO强化学习的两阶段训练范式,提升了推理一致性、控制鲁棒性和长程执行稳定性。
  • 构建了 MobileVLA-CoT,一个用于具身轨迹的多粒度CoT数据集,并在具身AI基准上实现了约 5% 的性能提升,成功在 Unitree Go2 平台上部署。
Card 04 方法描述

方法描述

  • 采用“先推理后执行”的设计,模型先生成结构化CoT动作计划,再通过动作解码器转换为连续控制命令。
  • 训练过程分两阶段:第一阶段通过在CoT标注数据上进行监督微调以对齐推理能力;第二阶段通过Group Relative Policy Optimization 强化学习来优化动作接地与执行保真度。
  • 模型架构遵循 LLaVA 设计,集成了RGB、深度和点云输入的多模态感知前端,并初始化自 NaVILA 模型。
Card 05 数据集与资源

数据集与资源

  • 使用了公开数据集 R2RRxRQUARD,并合成了大规模思维链语料库 MobileVLA-CoT
  • MobileVLA-CoT 包含三个子集:Episode级(18K)、Step级(78K)和Navigation级(38K)CoT标注。
  • 模型基于 LLaMA3-8B 语言主干,并使用 LoRA 进行参数高效调优。
  • 监督微调在 4× H20 GPU 上进行,GRPO强化学习在 单张 H20 GPU 上完成。
Card 06 评估与结果

评估与结果

  • VLN-CEQUARD 基准上进行了广泛评估。VLN-CE使用 R2R-CERxR-CE 数据集。
  • 主要评估指标包括导航误差(NE)、成功率(SR)、成功加权路径长度(SPL)等。
  • VLN-CE Val-Unseen 分割上,MobileVLA-R1取得了最先进性能,平均成功率比强基线提高约 5%
  • QUARD 基准的六项控制任务上,模型在所有难度级别(Easy, Medium, Hard)上均一致超越了基线方法。
  • 真实世界部署在 Unitree Go2 四足机器人上完成,在杂乱和部分可观测条件下验证了鲁棒性能。