返回列表 VLA / Vision-Language-Action 每日论文卡
Jump-Start Reinforcement Learning with Vision-Language-Action Regularization
提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。

论文详情

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

2026-04-15 · 原文 · 翻译 · 2604.13733

提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。 针对强化学习在 长序列任务 和 奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题,通过结合VLA的高级语义推理和RL的高频控制能力来提升样本效率。 目标是实现从仿真到真实机器人的零样本部署,并在多种复杂操控任务中验证方法的有效性。

5 分钟读完 6 张阅读卡 SUPSI(瑞士南部应用科学与艺术大学)
一眼看懂 封面预览

提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。

  • 提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。
  • 针对强化学习在 长序列任务 和 奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题,通过结合VLA的高级语义推理和RL的高频控制能力来提…
  • 目标是实现从仿真到真实机器人的零样本部署,并在多种复杂操控任务中验证方法的有效性。
Card 01 研究单位

研究单位

  • SUPSI(瑞士南部应用科学与艺术大学)
  • ETH Zurich(苏黎世联邦理工学院)
  • UNIMORE(摩德纳大学)
  • Unimec Research Center(意大利)
Card 02 论文概述

论文概述

  • 提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。
  • 针对强化学习在 长序列任务奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题,通过结合VLA的高级语义推理和RL的高频控制能力来提升样本效率。
  • 目标是实现从仿真到真实机器人的零样本部署,并在多种复杂操控任务中验证方法的有效性。
Card 03 核心贡献

核心贡献

  • 提出了一种利用VLA模型的稀疏、低频指导来加速高频状态控制强化学习的方法,产出的策略可直接部署于真实机器人系统。
  • 引入了 方向性动作一致性损失,提供灵活、瞬时的指导,而不限制策略的最终性能。
  • 在多种操控任务中证明了相比PPO和基于蒸馏的基线方法具有更高的样本效率,并将环境交互量减少了超过50%。
  • 开源了针对信用分配困难场景设计的 长序列奖励设计不佳 的ManiSkill环境。
Card 04 方法描述

方法描述

  • 基于 PPO 算法构建高频、闭环的状态控制框架,使用 GAE 进行优势估计。
  • 采用 稀疏VLA查询时间离散化 技术:仅在每次轨迹中少量查询VLA教师,并将教师输出的增量动作在若干控制步内进行线性/SLERP插值,作为指导目标。
  • 设计了 奖励趋势驱动的跳跃启动机制:根据滚动平均奖励的改善情况自适应减少VLA查询频率,并在奖励达到阈值后永久关闭指导。
  • 提出 方向性动作一致性损失:仅约束策略动作与VLA动作在平移和旋转方向上的对齐,而不约束动作幅度,避免过度限制策略探索。
Card 05 数据集与资源

数据集与资源

  • 仿真环境:使用 ManiSkill3 中的六项操控任务,包括 PickCubePickPlaceCubeLiftPegUprightPegInsertionSidePokeCubePushCube
  • 教师模型:采用预训练的 OpenVLA(平均成功率40%)作为外部教师,以及 Octo 作为对比模型。
  • 真实世界部署:在 Franka Panda 机器人上验证零样本迁移能力,使用 YOLO 检测器进行状态估计。
  • 训练资源:所有方法共享相同的PPO骨干网络、优化器和轨迹配置,评估使用多个随机种子和Bootstrap置信区间。
Card 06 评估与结果

评估与结果

  • 评估环境:针对两种信用分配次优场景——长序列任务(有效序列长度增加10倍)和 奖励设计不佳(简化稀疏奖励函数)。
  • 主要评估指标:特定步数下的成功率成功曲线下面积,分别衡量最终性能和学习速度。
  • 关键实验结果:

- 在长序列任务中,稀疏RPD 相比PPO显著提升了成功率和AUC。

- 在奖励设计不佳的任务中,VLAJS 在所有任务上均优于PPO和 VLAJS (RPD) 基线,宏平均成功率达到78.1%,AUC为78.4%。

- 真实世界零样本部署结果显示,VLAJS在 Lift Cube(70%)、Pick & Place(80%)和 Peg Reorientation(20%)任务上成功率均高于单独使用OpenVLA教师。