VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

论文详情

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

2025-05-24 · 原文 · 翻译 · 2505.18719

论文提出了 VLA-RL，一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。旨在解决现有基于模仿学习的VLAs在离线数据覆盖有限状态下，于分布外场景执行失败的问题。目标是通过探索式方法将离线数据的利用转变为在线学习，提升机器人操作任务的通用性和表现力。

3 分钟读完 6 张阅读卡清华大学深圳国际研究生院

一眼看懂封面预览

论文提出了 VLA-RL，一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。

论文提出了 VLA-RL，一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。
旨在解决现有基于模仿学习的VLAs在离线数据覆盖有限状态下，于分布外场景执行失败的问题。
目标是通过探索式方法将离线数据的利用转变为在线学习，提升机器人操作任务的通用性和表现力。

Card 01 研究单位

研究单位

清华大学深圳国际研究生院
南洋理工大学电气与电子工程学院

Card 02 论文概述

论文概述

论文提出了 VLA-RL，一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。
旨在解决现有基于模仿学习的VLAs在离线数据覆盖有限状态下，于分布外场景执行失败的问题。
目标是通过探索式方法将离线数据的利用转变为在线学习，提升机器人操作任务的通用性和表现力。

Card 03 核心贡献

核心贡献

提出了一种轨迹级的RL公式，将通用机器人操作轨迹建模为多模态、多轮对话。
引入了 机器人过程奖励模型，通过在自动提取的任务片段上标注伪奖励标签进行微调，以解决稀疏奖励的挑战。
识别并实现了多项提升训练稳定性和效率的关键技术，包括课程选择策略、GPU平衡向量化环境、批量解码和评论家预热。
实验证明，VLA-RL使OpenVLA-7B的性能大幅提升，并匹配了先进商业模型的表现。

Card 04 方法描述

方法描述

基于PPO算法，对以OpenVLA-7B为基础的预训练自回归VLA进行在线强化学习微调。
核心创新是将机器人操作动作序列的生成过程，形式化为状态（图像与指令）与动作token序列之间的多轮对话。
使用一个冻结的机器人过程奖励模型来稠密化环境原本提供的稀疏奖励，该模型通过微调一个视觉-语言模型得到。
系统性优化包括使用向量化的模拟环境以提升数据收集效率，以及采用批量解码和特定的训练预热策略。

Card 05 数据集与资源

数据集与资源

评估基于LIBERO基准，包含40个具有挑战性的机器人操作任务。
基础模型采用OpenVLA-7B，其核心为Llama-2-7B大语言模型。
原文未明确说明具体的GPU/TPU训练资源细节。

Card 06 评估与结果

评估与结果

评估环境为LIBERO模拟基准，主要评估指标为任务成功率。
VLA-RL使OpenVLA-7B的性能比最强的微调基线提升了4.5%。
其性能甚至与先进的商业模型π0-FAST相当。
实验观察到，随着测试时计算量的增加，模型性能持续提升，初步揭示了机器人领域的推理缩放定律。