一眼看懂
封面预览
论文提出了 RIPT-VLA,一种基于强化学习的交互式后训练范式,旨在解决现有视觉-语言-动作(VLA)模型训练流程依赖离线数据和大量标注的问…
- 论文提出了 RIPT-VLA,一种基于强化学习的交互式后训练范式,旨在解决现有视觉-语言-动作(VLA)模型训练流程依赖离线数据和大量标注的问…
- 该方法仅使用稀疏的二进制成功奖励,通过引入第三训练阶段,使 VLA 模型能够与环境交互并优化策略。
- 实验表明,该方法在极少数据(如单次演示)下能显著提升模型性能,并具备优秀的跨任务和跨场景泛化能力。
Card 01
研究单位
研究单位
- UT Austin
- Nankai University
Card 02
论文概述
论文概述
- 论文提出了 RIPT-VLA,一种基于强化学习的交互式后训练范式,旨在解决现有视觉-语言-动作(VLA)模型训练流程依赖离线数据和大量标注的问题。
- 该方法仅使用稀疏的二进制成功奖励,通过引入第三训练阶段,使 VLA 模型能够与环境交互并优化策略。
- 实验表明,该方法在极少数据(如单次演示)下能显著提升模型性能,并具备优秀的跨任务和跨场景泛化能力。
Card 03
核心贡献
核心贡献
- 提出了 RIPT-VLA 范式,这是首个针对 VLA 模型的强化交互式后训练框架,仅需稀疏二进制奖励即可实现高效微调。
- 设计了 Dynamic-Sampling Leave-One-Out Proximal Policy Optimization 算法,通过过滤零优势样本和动态采样构建均匀批次,解决了训练稳定性问题。
- 在多个基准测试中实现了最先进的性能,将 OpenVLA-OFT 模型的成功率提升至 97.5%。
- 在极低数据机制下表现卓越,仅凭一次演示即可将不可用的 SFT 模型(成功率 4%)提升至 97% 的成功率。
Card 04
方法描述
方法描述
- 将 VLA 模型的任务建模为马尔可夫决策过程(MDP),并在预训练和监督微调之后引入第三阶段:强化交互式后训练。
- 结合了 REINFORCE Leave-One-Out (RLOO) 优势估计和 Proximal Policy Optimization (PPO),构建了一个无评论器的优化框架。
- 关键技术创新在于动态采样策略:构建由非零优势样本组成的均匀批次,过滤掉全零优势的轨迹组,并在样本不足时持续采样,从而提高训练稳定性。
Card 05
数据集与资源
数据集与资源
- 使用 LIBERO 基准测试(包括 LIBERO-90)和 MetaWorld45 数据集进行评估。
- 涉及的模型包括轻量级模型 QueST 和大规模模型 OpenVLA-OFT(7B 参数量)。
- 训练过程展示了极高的数据效率,在 Few-shot 设置下仅需极少迭代次数(如 15 次迭代)即可收敛。
Card 06
评估与结果
评估与结果
- 在 LIBERO 基准测试中,RIPT-VLA 使 QueST 模型的平均成功率绝对提升了 10.9%。
- 在 OpenVLA-OFT 模型上,将失败率从 3.3% 降低至 2.5%,实现了 97.5% 的总体成功率。
- 在多任务基准测试中表现出色,在 LIBERO-90 上达到 94.3%,在 MetaWorld45 上达到 92.2%。
- 在仅使用 1 个演示的极端低数据场景下,成功将模型成功率从 4% 提升至 97%。