STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models

一眼看懂封面预览

本文提出了一种新颖的微调框架 StARe-VLA，旨在解决对视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的信用分配困难和训练…

Card 01 研究单位

研究单位

Card 02 论文概述

本文提出了一种新颖的微调框架 StARe-VLA，旨在解决对 视觉-语言-动作 (VLA) 模型进行长时程轨迹级微调时的 信用分配 困难和训练不稳定问题。
核心思想是将机器人操作的长时程动作轨迹，按照其语义分解为因果链式、难度不同的阶段（如Reach→Grasp→Transport→Place），并进行阶段感知的渐进式优化，而非整体轨迹优化。
论文要解决的问题是：直接应用轨迹级偏好优化（如TPO）或强化学习（如PPO）来微调VLA模型时，由于优化空间大、奖励稀疏，导致梯度信号模糊、训练效率低。

Card 03 核心贡献

提出了 Stage-Aware Reinforcement (StARe)，一个基于规则的模块，用于将长时程动作轨迹分解为语义上有意义的阶段，并提供密集的、可解释的阶段对齐强化信号。
基于 StARe 模块，提出了两种阶段感知微调方法：用于离线阶段偏好对齐的 Stage-Aware TPO (StA-TPO) 和用于在线阶段内交互的 Stage-Aware PPO (StA-PPO)，以提供更精确的信用分配。
提出了一个序列化的三阶段微调流程 Imitation → Preference → Interaction (IPI)，整合了监督微调（SFT）、StA-TPO 和 StA-PPO，以实现VLA模型的充分微调。
在 SimplerEnv 和 ManiSkill3 两个机器人操作基准测试中进行了广泛的实验，验证了所提方法的有效性，并取得了最先进的成功率。

Card 04 方法描述

核心技术是 StARe 模块，包含阶段分离器（基于末端执行器位姿的事件规则判断阶段转换时机）和阶段计算器（计算阶段成本和基于势函数的密集奖励）。
将 StARe 集成到TPO中，得到 StA-TPO：在阶段层面构建成对偏好，并引入阶段成本作为惩罚项，实现阶段级的偏好对齐。
将 StARe 集成到PPO中，得到 StA-PPO：在在线交互过程中提供密集的阶段内奖励塑形，替代稀疏的终端奖励，稳定并加速训练。
IPI 训练流程：首先使用专家演示进行 SFT，然后使用 StA-TPO 进行离线阶段偏好优化，最后使用 StA-PPO 进行在线交互式强化学习微调。

Card 05 数据集与资源

主要使用 SimplerEnv 和 ManiSkill3 两个机器人仿真环境中的任务进行评估。
在 SimplerEnv-WidowX 中评估了四个单物体操作任务：放置勺子、胡萝卜、堆叠方块、放置茄子。
在 ManiSkill3-Franka 中评估了 StackCube 和三个接触丰富的任务：PushCube, PullCube, LiftPegUpright。
模型基于预训练的 OpenVLA-7B 和 pi0.5_base VLA模型进行微调。

Card 06 评估与结果

评估基准：在 SimplerEnv 和 ManiSkill3 环境下，对比了多种基线方法（如RT-1-X, Octo, RoboVLM, SpatialVLA, GRAPE, RL4VLA）。
主要评估指标：任务成功率（平均超过300个评估回合），并在部分任务中额外报告抓取成功率。
关键实验结果：

- 在 SimplerEnv 上，完整的 IPI 流程达到了 98.0% 的平均成功率，显著优于所有基线（包括SFT、GRAPE等）。

- 在 ManiSkill3 上，IPI 实现了 96.4% 的平均成功率，展示了其在更复杂、接触丰富的任务上的泛化能力。

- 消融实验证明了 StA-PPO 相较于标准PPO能提供更稳定的训练和更快的收敛速度。