一眼看懂
封面预览
论文旨在系统研究强化学习(RL)微调能为视觉-语言-动作(VLA)模型带来何种独特的泛化优势,并与监督微调(SFT)进行对比。
- 论文旨在系统研究强化学习(RL)微调能为视觉-语言-动作(VLA)模型带来何种独特的泛化优势,并与监督微调(SFT)进行对比。
- 研究建立了全面的基准测试,从视觉、语义和执行三个维度,系统评估VLA模型的泛化能力。
- 论文要解决的核心问题是:与监督微调相比,RL微调能为VLA模型的泛化能力带来哪些具体益处。
Card 01
研究单位
研究单位
- 清华大学深圳国际研究生院
- 清华大学信息科学技术学院
- 清华大学电子工程系
Card 02
论文概述
论文概述
- 论文旨在系统研究强化学习(RL)微调能为视觉-语言-动作(VLA)模型带来何种独特的泛化优势,并与监督微调(SFT)进行对比。
- 研究建立了全面的基准测试,从视觉、语义和执行三个维度,系统评估VLA模型的泛化能力。
- 论文要解决的核心问题是:与监督微调相比,RL微调能为VLA模型的泛化能力带来哪些具体益处。
Card 03
核心贡献
核心贡献
- 建立了一个严格且具有挑战性的基准,用于评估VLA微调方法在视觉、语义和执行维度上的泛化能力。
- 识别出PPO算法相比源自LLM的方法(如DPO和GRPO)是更适合VLA模型的RL微调算法。
- 开发了一套高效的基于PPO的VLA微调方案,包括共享actor-critic骨干网络、VLA模型预热和最小PPO训练轮次。
- 通过实验证明,RL微调在语义理解和执行鲁棒性方面显著优于SFT,在视觉鲁棒性上表现相当。
Card 04
方法描述
方法描述
- 论文以OpenVLA模型为基础,使用PPO、GRPO和DPO三种RL算法进行微调对比,最终选定PPO作为核心方法。
- 提出了高效PPO训练方案:采用共享的Transformer骨干网络,在第一个动作token的隐藏层上添加一个三层MLP作为价值头(critic)。
- 在训练前使用少量(140条)演示轨迹对OpenVLA进行预热,以加速收敛。
- 发现并采用了极小的PPO训练轮次(epoch=1),在不牺牲性能的情况下显著提升了训练速度。
Card 05
数据集与资源
数据集与资源
- 使用OpenVLA模型,其骨干网络为Llama-2 7B语言模型,视觉编码器结合了SigLIP和DINOv2。
- 预训练数据来源于Open X-Embodiment (OXE) 数据集。
- 评估任务为抓放任务,在ManiSkill模拟器中进行,使用WidowX-250S机械臂。
- 训练资源:在单个NVIDIA A100 GPU上,主要实验收敛约需42小时。
Card 06
评估与结果
评估与结果
- 评估基准:从视觉(未见背景、纹理、噪声)、语义(未见物体、容器、指令措辞)、执行(初始状态变化、任务中干扰)三个维度设计任务。
- 主要评估指标为成功率。
- 关键结果:在分布外(OOD)任务上,RL微调的模型在未见物体和桌子上的成功率比最佳SFT模型(SFT-16k)高出42.6%。
- 实验结论:RL在语义和执行泛化维度上显著超越SFT,在视觉维度上性能相当。