一眼看懂
封面预览
论文提出了 VLA-RL,一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。
- 论文提出了 VLA-RL,一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。
- 旨在解决现有基于模仿学习的VLAs在离线数据覆盖有限状态下,于分布外场景执行失败的问题。
- 目标是通过探索式方法将离线数据的利用转变为在线学习,提升机器人操作任务的通用性和表现力。
Card 01
研究单位
研究单位
- 清华大学深圳国际研究生院
- 南洋理工大学电气与电子工程学院
Card 02
论文概述
论文概述
- 论文提出了 VLA-RL,一个利用在线强化学习改进预训练视觉-语言-动作模型的算法与系统框架。
- 旨在解决现有基于模仿学习的VLAs在离线数据覆盖有限状态下,于分布外场景执行失败的问题。
- 目标是通过探索式方法将离线数据的利用转变为在线学习,提升机器人操作任务的通用性和表现力。
Card 03
核心贡献
核心贡献
- 提出了一种轨迹级的RL公式,将通用机器人操作轨迹建模为多模态、多轮对话。
- 引入了 机器人过程奖励模型,通过在自动提取的任务片段上标注伪奖励标签进行微调,以解决稀疏奖励的挑战。
- 识别并实现了多项提升训练稳定性和效率的关键技术,包括课程选择策略、GPU平衡向量化环境、批量解码和评论家预热。
- 实验证明,VLA-RL使OpenVLA-7B的性能大幅提升,并匹配了先进商业模型的表现。
Card 04
方法描述
方法描述
- 基于PPO算法,对以OpenVLA-7B为基础的预训练自回归VLA进行在线强化学习微调。
- 核心创新是将机器人操作动作序列的生成过程,形式化为状态(图像与指令)与动作token序列之间的多轮对话。
- 使用一个冻结的机器人过程奖励模型来稠密化环境原本提供的稀疏奖励,该模型通过微调一个视觉-语言模型得到。
- 系统性优化包括使用向量化的模拟环境以提升数据收集效率,以及采用批量解码和特定的训练预热策略。
Card 05
数据集与资源
数据集与资源
- 评估基于LIBERO基准,包含40个具有挑战性的机器人操作任务。
- 基础模型采用OpenVLA-7B,其核心为Llama-2-7B大语言模型。
- 原文未明确说明具体的GPU/TPU训练资源细节。
Card 06
评估与结果
评估与结果
- 评估环境为LIBERO模拟基准,主要评估指标为任务成功率。
- VLA-RL使OpenVLA-7B的性能比最强的微调基线提升了4.5%。
- 其性能甚至与先进的商业模型π0-FAST相当。
- 实验观察到,随着测试时计算量的增加,模型性能持续提升,初步揭示了机器人领域的推理缩放定律。