Interactive Post-Training for Vision-Language-Action Models

论文详情

Interactive Post-Training for Vision-Language-Action Models

2025-05-22 · 原文 · 翻译 · 2505.17016

论文提出了 RIPT-VLA，一种基于强化学习的交互式后训练范式，旨在解决现有视觉-语言-动作（VLA）模型训练流程依赖离线数据和大量标注的问题。该方法仅使用稀疏的二进制成功奖励，通过引入第三训练阶段，使 VLA 模型能够与环境交互并优化策略。实验表明，该方法在极少数据（如单次演示）下能显著提升模型性能，并具备优秀的跨任务和跨场景泛化能力。

4 分钟读完 6 张阅读卡 UT Austin

一眼看懂封面预览

论文提出了 RIPT-VLA，一种基于强化学习的交互式后训练范式，旨在解决现有视觉-语言-动作（VLA）模型训练流程依赖离线数据和大量标注的问…

论文提出了 RIPT-VLA，一种基于强化学习的交互式后训练范式，旨在解决现有视觉-语言-动作（VLA）模型训练流程依赖离线数据和大量标注的问…
该方法仅使用稀疏的二进制成功奖励，通过引入第三训练阶段，使 VLA 模型能够与环境交互并优化策略。
实验表明，该方法在极少数据（如单次演示）下能显著提升模型性能，并具备优秀的跨任务和跨场景泛化能力。

Card 01 研究单位

研究单位

UT Austin
Nankai University

Card 02 论文概述

论文概述

论文提出了 RIPT-VLA，一种基于强化学习的交互式后训练范式，旨在解决现有视觉-语言-动作（VLA）模型训练流程依赖离线数据和大量标注的问题。
该方法仅使用稀疏的二进制成功奖励，通过引入第三训练阶段，使 VLA 模型能够与环境交互并优化策略。
实验表明，该方法在极少数据（如单次演示）下能显著提升模型性能，并具备优秀的跨任务和跨场景泛化能力。

Card 03 核心贡献

核心贡献

提出了 RIPT-VLA 范式，这是首个针对 VLA 模型的强化交互式后训练框架，仅需稀疏二进制奖励即可实现高效微调。
设计了 Dynamic-Sampling Leave-One-Out Proximal Policy Optimization 算法，通过过滤零优势样本和动态采样构建均匀批次，解决了训练稳定性问题。
在多个基准测试中实现了最先进的性能，将 OpenVLA-OFT 模型的成功率提升至 97.5%。
在极低数据机制下表现卓越，仅凭一次演示即可将不可用的 SFT 模型（成功率 4%）提升至 97% 的成功率。

Card 04 方法描述

方法描述

将 VLA 模型的任务建模为马尔可夫决策过程（MDP），并在预训练和监督微调之后引入第三阶段：强化交互式后训练。
结合了 REINFORCE Leave-One-Out (RLOO) 优势估计和 Proximal Policy Optimization (PPO)，构建了一个无评论器的优化框架。
关键技术创新在于动态采样策略：构建由非零优势样本组成的均匀批次，过滤掉全零优势的轨迹组，并在样本不足时持续采样，从而提高训练稳定性。

Card 05 数据集与资源

数据集与资源

使用 LIBERO 基准测试（包括 LIBERO-90）和 MetaWorld45 数据集进行评估。
涉及的模型包括轻量级模型 QueST 和大规模模型 OpenVLA-OFT（7B 参数量）。
训练过程展示了极高的数据效率，在 Few-shot 设置下仅需极少迭代次数（如 15 次迭代）即可收敛。

Card 06 评估与结果

评估与结果

在 LIBERO 基准测试中，RIPT-VLA 使 QueST 模型的平均成功率绝对提升了 10.9%。
在 OpenVLA-OFT 模型上，将失败率从 3.3% 降低至 2.5%，实现了 97.5% 的总体成功率。
在多任务基准测试中表现出色，在 LIBERO-90 上达到 94.3%，在 MetaWorld45 上达到 92.2%。
在仅使用 1 个演示的极端低数据场景下，成功将模型成功率从 4% 提升至 97%。