返回列表 VLA / Vision-Language-Action 每日论文卡
STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models
本文提出了一种新颖的微调框架 StARe-VLA,旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练…

论文详情

STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models

2025-12-04 · 原文 · 翻译 · 2512.05107

本文提出了一种新颖的微调框架 StARe-VLA,旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练不稳定问题。 核心思想是将机器人操作的长时程动作轨迹,按照其语义分解为因果链式、难度不同的阶段(如Reach→Grasp→Transport→Place),并进行阶段感知的渐进式优化,而非整体轨迹优化。 论文要解决的问题是:直接应用轨迹级偏好优化(如TPO)或强化学习(如PP…

6 分钟读完 6 张阅读卡 华为技术有限公司慕尼黑研究院 (Munich Research Center, Huawei Tech…
一眼看懂 封面预览

本文提出了一种新颖的微调框架 StARe-VLA,旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练…

  • 本文提出了一种新颖的微调框架 StARe-VLA,旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练…
  • 核心思想是将机器人操作的长时程动作轨迹,按照其语义分解为因果链式、难度不同的阶段(如Reach→Grasp→Transport→Place)…
  • 论文要解决的问题是:直接应用轨迹级偏好优化(如TPO)或强化学习(如PPO)来微调VLA模型时,由于优化空间大、奖励稀疏,导致梯度信号模糊、训…
Card 01 研究单位

研究单位

  • 华为技术有限公司慕尼黑研究院 (Munich Research Center, Huawei Technologies)
  • 帝国理工学院 (Imperial College London)
Card 02 论文概述

论文概述

  • 本文提出了一种新颖的微调框架 StARe-VLA,旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练不稳定问题。
  • 核心思想是将机器人操作的长时程动作轨迹,按照其语义分解为因果链式、难度不同的阶段(如Reach→Grasp→Transport→Place),并进行阶段感知的渐进式优化,而非整体轨迹优化。
  • 论文要解决的问题是:直接应用轨迹级偏好优化(如TPO)或强化学习(如PPO)来微调VLA模型时,由于优化空间大、奖励稀疏,导致梯度信号模糊、训练效率低
Card 03 核心贡献

核心贡献

  • 提出了 Stage-Aware Reinforcement (StARe),一个基于规则的模块,用于将长时程动作轨迹分解为语义上有意义的阶段,并提供密集的、可解释的阶段对齐强化信号
  • 基于 StARe 模块,提出了两种阶段感知微调方法:用于离线阶段偏好对齐的 Stage-Aware TPO (StA-TPO) 和用于在线阶段内交互的 Stage-Aware PPO (StA-PPO),以提供更精确的信用分配。
  • 提出了一个序列化的三阶段微调流程 Imitation → Preference → Interaction (IPI),整合了监督微调(SFT)、StA-TPOStA-PPO,以实现VLA模型的充分微调。
  • SimplerEnvManiSkill3 两个机器人操作基准测试中进行了广泛的实验,验证了所提方法的有效性,并取得了最先进的成功率。
Card 04 方法描述

方法描述

  • 核心技术是 StARe 模块,包含阶段分离器(基于末端执行器位姿的事件规则判断阶段转换时机)和阶段计算器(计算阶段成本和基于势函数的密集奖励)。
  • StARe 集成到TPO中,得到 StA-TPO:在阶段层面构建成对偏好,并引入阶段成本作为惩罚项,实现阶段级的偏好对齐
  • StARe 集成到PPO中,得到 StA-PPO:在在线交互过程中提供密集的阶段内奖励塑形,替代稀疏的终端奖励,稳定并加速训练。
  • IPI 训练流程:首先使用专家演示进行 SFT,然后使用 StA-TPO 进行离线阶段偏好优化,最后使用 StA-PPO 进行在线交互式强化学习微调。
Card 05 数据集与资源

数据集与资源

  • 主要使用 SimplerEnvManiSkill3 两个机器人仿真环境中的任务进行评估。
  • SimplerEnv-WidowX 中评估了四个单物体操作任务:放置勺子、胡萝卜、堆叠方块、放置茄子。
  • ManiSkill3-Franka 中评估了 StackCube 和三个接触丰富的任务:PushCube, PullCube, LiftPegUpright
  • 模型基于预训练的 OpenVLA-7Bpi0.5_base VLA模型进行微调。
Card 06 评估与结果

评估与结果

  • 评估基准:在 SimplerEnvManiSkill3 环境下,对比了多种基线方法(如RT-1-X, Octo, RoboVLM, SpatialVLA, GRAPE, RL4VLA)。
  • 主要评估指标:任务成功率(平均超过300个评估回合),并在部分任务中额外报告抓取成功率
  • 关键实验结果:

- 在 SimplerEnv 上,完整的 IPI 流程达到了 98.0% 的平均成功率,显著优于所有基线(包括SFT、GRAPE等)。

- 在 ManiSkill3 上,IPI 实现了 96.4% 的平均成功率,展示了其在更复杂、接触丰富的任务上的泛化能力。

- 消融实验证明了 StA-PPO 相较于标准PPO能提供更稳定的训练和更快的收敛速度。