一眼看懂
封面预览
提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。
- 提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。
- 针对强化学习在 长序列任务 和 奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题,通过结合VLA的高级语义推理和RL的高频控制能力来提…
- 目标是实现从仿真到真实机器人的零样本部署,并在多种复杂操控任务中验证方法的有效性。
Card 01
研究单位
研究单位
- SUPSI(瑞士南部应用科学与艺术大学)
- ETH Zurich(苏黎世联邦理工学院)
- UNIMORE(摩德纳大学)
- Unimec Research Center(意大利)
Card 02
论文概述
论文概述
- 提出了一种名为 VLAJS 的方法,利用 视觉-语言-动作 模型作为稀疏、瞬时的辅助指导,加速机器人操控任务中的强化学习训练。
- 针对强化学习在 长序列任务 和 奖励设计不佳 场景下存在的探索效率低、信用分配困难等问题,通过结合VLA的高级语义推理和RL的高频控制能力来提升样本效率。
- 目标是实现从仿真到真实机器人的零样本部署,并在多种复杂操控任务中验证方法的有效性。
Card 03
核心贡献
核心贡献
- 提出了一种利用VLA模型的稀疏、低频指导来加速高频状态控制强化学习的方法,产出的策略可直接部署于真实机器人系统。
- 引入了 方向性动作一致性损失,提供灵活、瞬时的指导,而不限制策略的最终性能。
- 在多种操控任务中证明了相比PPO和基于蒸馏的基线方法具有更高的样本效率,并将环境交互量减少了超过50%。
- 开源了针对信用分配困难场景设计的 长序列 和 奖励设计不佳 的ManiSkill环境。
Card 04
方法描述
方法描述
- 基于 PPO 算法构建高频、闭环的状态控制框架,使用 GAE 进行优势估计。
- 采用 稀疏VLA查询 和 时间离散化 技术:仅在每次轨迹中少量查询VLA教师,并将教师输出的增量动作在若干控制步内进行线性/SLERP插值,作为指导目标。
- 设计了 奖励趋势驱动的跳跃启动机制:根据滚动平均奖励的改善情况自适应减少VLA查询频率,并在奖励达到阈值后永久关闭指导。
- 提出 方向性动作一致性损失:仅约束策略动作与VLA动作在平移和旋转方向上的对齐,而不约束动作幅度,避免过度限制策略探索。
Card 05
数据集与资源
数据集与资源
- 仿真环境:使用 ManiSkill3 中的六项操控任务,包括 PickCube、PickPlaceCube、LiftPegUpright、PegInsertionSide、PokeCube、PushCube。
- 教师模型:采用预训练的 OpenVLA(平均成功率40%)作为外部教师,以及 Octo 作为对比模型。
- 真实世界部署:在 Franka Panda 机器人上验证零样本迁移能力,使用 YOLO 检测器进行状态估计。
- 训练资源:所有方法共享相同的PPO骨干网络、优化器和轨迹配置,评估使用多个随机种子和Bootstrap置信区间。
Card 06
评估与结果
评估与结果
- 评估环境:针对两种信用分配次优场景——长序列任务(有效序列长度增加10倍)和 奖励设计不佳(简化稀疏奖励函数)。
- 主要评估指标:特定步数下的成功率 和 成功曲线下面积,分别衡量最终性能和学习速度。
- 关键实验结果:
- 在长序列任务中,稀疏RPD 相比PPO显著提升了成功率和AUC。
- 在奖励设计不佳的任务中,VLAJS 在所有任务上均优于PPO和 VLAJS (RPD) 基线,宏平均成功率达到78.1%,AUC为78.4%。
- 真实世界零样本部署结果显示,VLAJS在 Lift Cube(70%)、Pick & Place(80%)和 Peg Reorientation(20%)任务上成功率均高于单独使用OpenVLA教师。