What Can RL Bring to VLA Generalization? An Empirical Study

论文详情

What Can RL Bring to VLA Generalization? An Empirical Study

2025-05-26 · 原文 · 翻译 · 2505.19789

论文旨在系统研究强化学习（RL）微调能为视觉-语言-动作（VLA）模型带来何种独特的泛化优势，并与监督微调（SFT）进行对比。研究建立了全面的基准测试，从视觉、语义和执行三个维度，系统评估VLA模型的泛化能力。论文要解决的核心问题是：与监督微调相比，RL微调能为VLA模型的泛化能力带来哪些具体益处。

4 分钟读完 6 张阅读卡清华大学深圳国际研究生院

一眼看懂封面预览

论文旨在系统研究强化学习（RL）微调能为视觉-语言-动作（VLA）模型带来何种独特的泛化优势，并与监督微调（SFT）进行对比。

论文旨在系统研究强化学习（RL）微调能为视觉-语言-动作（VLA）模型带来何种独特的泛化优势，并与监督微调（SFT）进行对比。
研究建立了全面的基准测试，从视觉、语义和执行三个维度，系统评估VLA模型的泛化能力。
论文要解决的核心问题是：与监督微调相比，RL微调能为VLA模型的泛化能力带来哪些具体益处。

Card 01 研究单位

研究单位

清华大学深圳国际研究生院
清华大学信息科学技术学院
清华大学电子工程系

Card 02 论文概述

论文概述

论文旨在系统研究强化学习（RL）微调能为视觉-语言-动作（VLA）模型带来何种独特的泛化优势，并与监督微调（SFT）进行对比。
研究建立了全面的基准测试，从视觉、语义和执行三个维度，系统评估VLA模型的泛化能力。
论文要解决的核心问题是：与监督微调相比，RL微调能为VLA模型的泛化能力带来哪些具体益处。

Card 03 核心贡献

核心贡献

建立了一个严格且具有挑战性的基准，用于评估VLA微调方法在视觉、语义和执行维度上的泛化能力。
识别出PPO算法相比源自LLM的方法（如DPO和GRPO）是更适合VLA模型的RL微调算法。
开发了一套高效的基于PPO的VLA微调方案，包括共享actor-critic骨干网络、VLA模型预热和最小PPO训练轮次。
通过实验证明，RL微调在语义理解和执行鲁棒性方面显著优于SFT，在视觉鲁棒性上表现相当。

Card 04 方法描述

方法描述

论文以OpenVLA模型为基础，使用PPO、GRPO和DPO三种RL算法进行微调对比，最终选定PPO作为核心方法。
提出了高效PPO训练方案：采用共享的Transformer骨干网络，在第一个动作token的隐藏层上添加一个三层MLP作为价值头（critic）。
在训练前使用少量（140条）演示轨迹对OpenVLA进行预热，以加速收敛。
发现并采用了极小的PPO训练轮次（epoch=1），在不牺牲性能的情况下显著提升了训练速度。

Card 05 数据集与资源

数据集与资源

使用OpenVLA模型，其骨干网络为Llama-2 7B语言模型，视觉编码器结合了SigLIP和DINOv2。
预训练数据来源于Open X-Embodiment (OXE) 数据集。
评估任务为抓放任务，在ManiSkill模拟器中进行，使用WidowX-250S机械臂。
训练资源：在单个NVIDIA A100 GPU上，主要实验收敛约需42小时。

Card 06 评估与结果

评估与结果

评估基准：从视觉（未见背景、纹理、噪声）、语义（未见物体、容器、指令措辞）、执行（初始状态变化、任务中干扰）三个维度设计任务。
主要评估指标为成功率。
关键结果：在分布外（OOD）任务上，RL微调的模型在未见物体和桌子上的成功率比最佳SFT模型（SFT-16k）高出42.6%。
实验结论：RL在语义和执行泛化维度上显著超越SFT，在视觉维度上性能相当。