Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

一眼看懂封面预览

论文旨在解决视觉-语言-动作（VLA）模型在真实世界中通过强化学习进行微调时，面临的交互成本高、安全风险大的问题。

Card 01 研究单位

研究单位

作者所属机构未在原文中明确列出，根据文中的实验硬件平台（如 Galaxy-R1 和 Arx-X5 机器人系统）推断，研究来自具备机器人实验平台的研究机构。

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

世界模型基于预训练的 统一多模态模型（UMM），具体使用了 Bagel 模型。该方法将连续动作离散化为词元序列，使 UMM 能够直接处理动作输入并联合预测未来观测与奖励。
通过 交叉视图解码 策略实现多视图一致性。该方法按顺序生成头部视角观测，然后以已生成的头部视角为条件生成手腕视角，从而显式约束跨视图的一致性。
采用 块级分支展开 进行策略优化。该方法不从初始状态进行长时序展开，而是从离线数据集中的任意观测开始，进行短时序的分支展开。结合块级动作预测，显著缩短了有效展开长度，减少了误差累积。
策略优化基于 PPO 框架，并采用 Flow-Noise 变体来优化基于流匹配的策略，同时为 VLA 模型附加一个 MLP 价值头。

Card 05 数据集与资源

仿真任务：使用 LIBERO 机器人操作基准，包含 Spatial、Object、Goal、Long 四个任务套件。每个任务使用 50 条轨迹进行训练。
真实世界任务：在 Arx-X5 双臂机器人和 Galaxy-R1 全身机器人上设计了五个任务（如插线缆、叠毛巾、拿杯子等），每个任务通过遥操作收集约 50-100 条轨迹用于监督微调。
模型规模：世界模型基于统一多模态模型 Bagel；VLA 策略模型使用 π₀.₅ 并进行微调。
训练资源：训练使用了 A100 GPU，具体计算资源细节见附录 F。

Card 06 评估与结果

- 在 LIBERO 基准上，VLA-MBPO 在所有四个套件上均取得最佳平均成功率，相比初始 SFT 策略平均提升 +9.1%，尤其在长时序任务上提升显著（+12.2%）。

- 在真实世界任务中，VLA-MBPO 在两种机器人平台的所有五个任务上均表现出一致的性能提升，验证了其鲁棒性和泛化能力。

- 消融研究证实了 交叉视图解码 和 块级分支展开 各自的重要性，并验证了方法对关键超参数（如展开长度、样本量）的稳健性。

- 理论分析表明，VLA-MBPO 通过块级展开显著降低了策略与模型误差导致的价值差距。