一眼看懂
封面预览
论文针对 Vision-Language-Action (VLA) 模型 后训练中存在的关键问题:离线监督微调 (SFT) 存在分布偏移与灾难…
- 论文针对 Vision-Language-Action (VLA) 模型 后训练中存在的关键问题:离线监督微调 (SFT) 存在分布偏移与灾难…
- 提出一种名为 On-Policy VLA Distillation (VLA-OPD) 的统一框架,旨在结合 SFT 的训练效率与 RL 的闭…
- 该框架通过让教师模型在学生模型自我生成的轨迹上提供密集的、Token 级别的监督,解决了传统方法的根本局限。
Card 01
研究单位
研究单位
- 论文作者署名格式显示所有作者可能属于同一研究团队,但原文未明确列出具体的机构名称。
Card 02
论文概述
论文概述
- 论文针对 Vision-Language-Action (VLA) 模型 后训练中存在的关键问题:离线监督微调 (SFT) 存在分布偏移与灾难性遗忘,而在线强化学习 (RL) 则面临稀疏奖励与样本效率低下。
- 提出一种名为 On-Policy VLA Distillation (VLA-OPD) 的统一框架,旨在结合 SFT 的训练效率与 RL 的闭环鲁棒性。
- 该框架通过让教师模型在学生模型自我生成的轨迹上提供密集的、Token 级别的监督,解决了传统方法的根本局限。
Card 03
核心贡献
核心贡献
- 提出 VLA-OPD 框架,统一了离线 SFT 和在线 RL,通过密集监督解决了 SFT 的曝光偏差和 RL 的样本效率问题。
- 为 VLA 模型制定了 Reverse-KL 蒸馏目标函数,其“模态搜寻”特性能有效过滤教师模型的认知不确定性并保持动作多样性,避免了标准 Forward-KL 的熵爆炸与 Hard-CE 的熵坍塌。
- 提出一种通过“温和对齐”来缓解灾难性遗忘的原则性方法,确保梯度更新基于学生的主动策略流形,从而保留预训练的通用能力。
- 在 LIBERO 和 RoboTwin2.0 基准上进行了广泛评估,证明 VLA-OPD 相比 SFT 具有更高的鲁棒性与成功率,相比在线 RL 基线(如 GRPO)需要更少的训练步数。
Card 04
方法描述
方法描述
- VLA-OPD 框架分为三个阶段运行:学生策略进行在线轨迹采样;冻结的专家教师模型对学生访问的每个状态提供密集教师标注;学生策略通过模态搜寻优化进行更新。
- 核心创新在于优化目标函数。该方法不使用依赖稀疏环境奖励的 RL 目标,而是使用基于学生与教师分布间 Reverse-KL 散度的内在奖励进行策略梯度更新。
- Reverse-KL 目标具有“有界模态搜寻”特性,在分布外状态下能促使学生模型专注于教师模型的主要动作模式,同时保持足够的探索随机性,从而实现稳定训练。
Card 05
数据集与资源
数据集与资源
- 使用了 LIBERO 基准(包含 Spatial, Object, Goal, Long 四个套件)用于单臂操作任务,以及 RoboTwin2.0 基准(包含四个代表性任务)用于双臂协调任务。
- 学生模型基于 OpenVLA 模型进行初始化。在 LIBERO 上采用 1-traj SFT(单条轨迹)初始化以测试数据稀缺性;在 RoboTwin2.0 上采用 1,000-traj SFT 初始化以测试形态复杂性下的性能提升。
- 教师模型采用了 SimpleVLA-RL 作为性能 oracle。原文未明确提及具体 GPU/TPU 等训练硬件资源详情。
Card 06
评估与结果
评估与结果
- 评估在 LIBERO(单臂)和 RoboTwin2.0(双臂)基准上进行,与 GRPO (在线 RL)、OpenVLA-OFT (学生初始化)、全数据集方法等基线对比。
- 主要评估指标为任务成功率 (%)。
- 关键结果表明:在 LIBERO 上,VLA-OPD (Distill) 仅使用 1 条轨迹数据即可达到 87.4% 平均成功率,媲美使用 50 条轨迹的全数据集方法;结合 GRPO 微调后进一步提升至 93.4%,接近教师模型性能。
- 训练效率上,VLA-OPD 在 LIBERO-Long 任务上仅需 50 步即可达到接近 80% 成功率,比 GRPO 基线(需超150步)实现了约 3倍加速。
- 灾难性遗忘分析 显示,离线 SFT 在提升目标任务性能时会导致未见任务性能崩溃,而 VLA-OPD 等在线方法能有效保留预训练能力。
- 消融研究 证实了 Reverse-KL 目标函数相比 Forward-KL 和 Hard-CE 在维持稳定熵和成功率上的关键优势,并验证了小组采样大小 (G) 对训练效率的积极影响。