Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

一眼看懂封面预览

提出了一种名为 VLAJS 的方法，利用视觉-语言-动作模型作为稀疏、瞬时的辅助指导，加速机器人操控任务中的强化学习训练。

Card 01 研究单位

研究单位

Card 02 论文概述

提出了一种名为 VLAJS 的方法，利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导，加速机器人操控任务中的强化学习训练。
针对强化学习在 长序列任务 和 奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题，通过结合VLA的高级语义推理和RL的高频控制能力来提升样本效率。
目标是实现从仿真到真实机器人的零样本部署，并在多种复杂操控任务中验证方法的有效性。

Card 03 核心贡献

Card 04 方法描述

基于 PPO 算法构建高频、闭环的状态控制框架，使用 GAE 进行优势估计。
采用 稀疏VLA查询 和 时间离散化 技术：仅在每次轨迹中少量查询VLA教师，并将教师输出的增量动作在若干控制步内进行线性/SLERP插值，作为指导目标。
设计了 奖励趋势驱动的跳跃启动机制：根据滚动平均奖励的改善情况自适应减少VLA查询频率，并在奖励达到阈值后永久关闭指导。
提出 方向性动作一致性损失：仅约束策略动作与VLA动作在平移和旋转方向上的对齐，而不约束动作幅度，避免过度限制策略探索。

Card 05 数据集与资源

仿真环境：使用 ManiSkill3 中的六项操控任务，包括 PickCube、PickPlaceCube、LiftPegUpright、PegInsertionSide、PokeCube、PushCube。
教师模型：采用预训练的 OpenVLA（平均成功率40%）作为外部教师，以及 Octo 作为对比模型。
真实世界部署：在 Franka Panda 机器人上验证零样本迁移能力，使用 YOLO 检测器进行状态估计。
训练资源：所有方法共享相同的PPO骨干网络、优化器和轨迹配置，评估使用多个随机种子和Bootstrap置信区间。

Card 06 评估与结果

- 在长序列任务中，稀疏RPD 相比PPO显著提升了成功率和AUC。

- 在奖励设计不佳的任务中，VLAJS 在所有任务上均优于PPO和 VLAJS (RPD) 基线，宏平均成功率达到78.1%，AUC为78.4%。

- 真实世界零样本部署结果显示，VLAJS在 Lift Cube（70%）、Pick & Place（80%）和 Peg Reorientation（20%）任务上成功率均高于单独使用OpenVLA教师。