论文提出了 MobileVLA-R1，一个用于四足机器人的统一视觉-语言-行动（VLA）框架，旨在解决将自然语言指令接地到连续控制这一根本挑战。

论文详情

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

2025-11-22 · 原文 · 翻译 · 2511.17889

论文提出了 MobileVLA-R1，一个用于四足机器人的统一视觉-语言-行动（VLA）框架，旨在解决将自然语言指令接地到连续控制这一根本挑战。现有方法难以连接高层语义推理与低层执行，导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。

4 分钟读完 6 张阅读卡北京大学

一眼看懂封面预览

论文提出了 MobileVLA-R1，一个用于四足机器人的统一视觉-语言-行动（VLA）框架，旨在解决将自然语言指令接地到连续控制这一根本挑战。

论文提出了 MobileVLA-R1，一个用于四足机器人的统一视觉-语言-行动（VLA）框架，旨在解决将自然语言指令接地到连续控制这一根本挑战。
现有方法难以连接高层语义推理与低层执行，导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。
论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。

Card 01 研究单位

研究单位

北京大学

Card 02 论文概述

论文概述

论文提出了 MobileVLA-R1，一个用于四足机器人的统一视觉-语言-行动（VLA）框架，旨在解决将自然语言指令接地到连续控制这一根本挑战。
现有方法难以连接高层语义推理与低层执行，导致接地不稳定、泛化能力弱。本文通过引入显式推理和连续控制来解决这些问题。
论文的核心目标是构建一个能够实现可解释规划、跨多种环境进行鲁棒控制的具身基础模型。

Card 03 核心贡献

核心贡献

提出了 MobileVLA-R1，一种分层VLA框架，通过思维链生成和连续控制，显式连接了语义推理与电机控制。
设计了一个结合监督CoT对齐与GRPO强化学习的两阶段训练范式，提升了推理一致性、控制鲁棒性和长程执行稳定性。
构建了 MobileVLA-CoT，一个用于具身轨迹的多粒度CoT数据集，并在具身AI基准上实现了约 5% 的性能提升，成功在 Unitree Go2 平台上部署。

Card 04 方法描述

方法描述

采用“先推理后执行”的设计，模型先生成结构化CoT动作计划，再通过动作解码器转换为连续控制命令。
训练过程分两阶段：第一阶段通过在CoT标注数据上进行监督微调以对齐推理能力；第二阶段通过Group Relative Policy Optimization 强化学习来优化动作接地与执行保真度。
模型架构遵循 LLaVA 设计，集成了RGB、深度和点云输入的多模态感知前端，并初始化自 NaVILA 模型。

Card 05 数据集与资源

数据集与资源

使用了公开数据集 R2R、RxR 和 QUARD，并合成了大规模思维链语料库 MobileVLA-CoT。
MobileVLA-CoT 包含三个子集：Episode级（18K）、Step级（78K）和Navigation级（38K）CoT标注。
模型基于 LLaMA3-8B 语言主干，并使用 LoRA 进行参数高效调优。
监督微调在 4× H20 GPU 上进行，GRPO强化学习在 单张 H20 GPU 上完成。

Card 06 评估与结果

评估与结果

在 VLN-CE 和 QUARD 基准上进行了广泛评估。VLN-CE使用 R2R-CE 和 RxR-CE 数据集。
主要评估指标包括导航误差（NE）、成功率（SR）、成功加权路径长度（SPL）等。
在 VLN-CE Val-Unseen 分割上，MobileVLA-R1取得了最先进性能，平均成功率比强基线提高约 5%。
在 QUARD 基准的六项控制任务上，模型在所有难度级别（Easy, Medium, Hard）上均一致超越了基线方法。
真实世界部署在 Unitree Go2 四足机器人上完成，在杂乱和部分可观测条件下验证了鲁棒性能。