VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation

一眼看懂封面预览

论文针对 Vision-Language-Action (VLA) 模型后训练中存在的关键问题：离线监督微调 (SFT) 存在分布偏移与灾难…

Card 01 研究单位

研究单位

Card 02 论文概述

论文针对 Vision-Language-Action (VLA) 模型 后训练中存在的关键问题：离线监督微调 (SFT) 存在分布偏移与灾难性遗忘，而在线强化学习 (RL) 则面临稀疏奖励与样本效率低下。
提出一种名为 On-Policy VLA Distillation (VLA-OPD) 的统一框架，旨在结合 SFT 的训练效率与 RL 的闭环鲁棒性。
该框架通过让教师模型在学生模型自我生成的轨迹上提供密集的、Token 级别的监督，解决了传统方法的根本局限。

Card 03 核心贡献

提出 VLA-OPD 框架，统一了离线 SFT 和在线 RL，通过密集监督解决了 SFT 的曝光偏差和 RL 的样本效率问题。
为 VLA 模型制定了 Reverse-KL 蒸馏目标函数，其“模态搜寻”特性能有效过滤教师模型的认知不确定性并保持动作多样性，避免了标准 Forward-KL 的熵爆炸与 Hard-CE 的熵坍塌。
提出一种通过“温和对齐”来缓解灾难性遗忘的原则性方法，确保梯度更新基于学生的主动策略流形，从而保留预训练的通用能力。
在 LIBERO 和 RoboTwin2.0 基准上进行了广泛评估，证明 VLA-OPD 相比 SFT 具有更高的鲁棒性与成功率，相比在线 RL 基线（如 GRPO）需要更少的训练步数。

Card 04 方法描述

VLA-OPD 框架分为三个阶段运行：学生策略进行在线轨迹采样；冻结的专家教师模型对学生访问的每个状态提供密集教师标注；学生策略通过模态搜寻优化进行更新。
核心创新在于优化目标函数。该方法不使用依赖稀疏环境奖励的 RL 目标，而是使用基于学生与教师分布间 Reverse-KL 散度的内在奖励进行策略梯度更新。
Reverse-KL 目标具有“有界模态搜寻”特性，在分布外状态下能促使学生模型专注于教师模型的主要动作模式，同时保持足够的探索随机性，从而实现稳定训练。

Card 05 数据集与资源

使用了 LIBERO 基准（包含 Spatial, Object, Goal, Long 四个套件）用于单臂操作任务，以及 RoboTwin2.0 基准（包含四个代表性任务）用于双臂协调任务。
学生模型基于 OpenVLA 模型进行初始化。在 LIBERO 上采用 1-traj SFT（单条轨迹）初始化以测试数据稀缺性；在 RoboTwin2.0 上采用 1,000-traj SFT 初始化以测试形态复杂性下的性能提升。
教师模型采用了 SimpleVLA-RL 作为性能 oracle。原文未明确提及具体 GPU/TPU 等训练硬件资源详情。

Card 06 评估与结果

评估在 LIBERO（单臂）和 RoboTwin2.0（双臂）基准上进行，与 GRPO (在线 RL)、OpenVLA-OFT (学生初始化)、全数据集方法等基线对比。
主要评估指标为任务成功率 (%)。
关键结果表明：在 LIBERO 上，VLA-OPD (Distill) 仅使用 1 条轨迹数据即可达到 87.4% 平均成功率，媲美使用 50 条轨迹的全数据集方法；结合 GRPO 微调后进一步提升至 93.4%，接近教师模型性能。
训练效率上，VLA-OPD 在 LIBERO-Long 任务上仅需 50 步即可达到接近 80% 成功率，比 GRPO 基线（需超150步）实现了约 3倍加速。
灾难性遗忘分析 显示，离线 SFT 在提升目标任务性能时会导致未见任务性能崩溃，而 VLA-OPD 等在线方法能有效保留预训练能力。
消融研究 证实了 Reverse-KL 目标函数相比 Forward-KL 和 Hard-CE 在维持稳定熵和成功率上的关键优势，并验证了小组采样大小 (G) 对训练效率的积极影响。