一眼看懂
封面预览
提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调
- 提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调
- 核心挑战:流匹配模型中动作的对数似然(log-likelihood)难以计算,传统VLA-RL算法无法直接应用于基于流的VLA模型(如 π0、…
- 目标:通过强化学习使VLA模型能够超越监督微调(SFT)的专家演示性能,提升策略的泛化能力
Card 01
研究单位
研究单位
- 论文作者来自多个研究机构(具体机构名称在HTML中以数字上标形式标注:1-6)
- 主要作者包括 Kang Chen、Zhihao Liu、Tonghe Zhang 等人
- 作者团队涵盖机器学习、机器人学、计算机视觉等领域
Card 02
论文概述
论文概述
- 提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调
- 核心挑战:流匹配模型中动作的对数似然(log-likelihood)难以计算,传统VLA-RL算法无法直接应用于基于流的VLA模型(如 π0、π0.5)
- 目标:通过强化学习使VLA模型能够超越监督微调(SFT)的专家演示性能,提升策略的泛化能力
Card 03
核心贡献
核心贡献
- Flow-Noise 方法:将去噪过程建模为离散时间MDP,引入可学习的噪声网络实现精确的对数似然计算
- Flow-SDE 方法:将确定性ODE转换为等效的SDE以增强探索,构建两层MDP耦合去噪过程与环境交互
- 首次实现基于流的VLA模型的在线RL微调,在多个基准测试上取得显著性能提升
- 在 π0 模型上平均提升 +29.2%,在 π0.5 模型上平均提升 +31.0%
Card 04
方法描述
方法描述
- Flow-Noise:在去噪过程中注入可学习的高斯噪声,将每步转移建模为高斯分布,通过可学习的噪声网络控制方差,实现精确的对数似然估计
- Flow-SDE:基于概率流ODE与SDE的等价性,将确定性采样转换为随机微分方程,引入漂移项和扩散项;采用混合ODE-SDE采样策略加速训练
- 策略优化:使用 PPO 算法进行策略更新,结合 GAE 计算优势估计,采用 chunk-level 形式化(将H步动作序列视为单步)
- Critic 设计:针对不同VLA架构(π0 和 π0.5)设计不同的价值函数估计方式
Card 05
数据集与资源
数据集与资源
- 基准测试:LIBERO、ManiSkill、MetaWorld、CALVIN 四个机器人操作基准
- 基础模型:π0 和 π0.5(基于流匹配的VLA模型)
- 评估设置:分布内(ID)和分布外(OOD)评估
- 训练使用 PPO 算法,折扣因子 γ 和 GAE 参数 λ 控制
Card 06
评估与结果
评估与结果
- 分布内性能:π_RL 在所有基准上显著超越 SFT 基线
- π0 模型:平均提升 +29.2%,最高达 97.6%(LIBERO)
- π0.5 模型:平均提升 +31.0%,最高达 98.3%(LIBERO)
- 分布外泛化:在 ManiSkill OOD 和 CALVIN ABC-D 上性能提升可迁移,但在 MetaWorld ML45 上波动较大
- 消融实验:验证了 Critic 设计(VLM-based 优于 Expert-based)、噪声注入策略、两层 MDP 形式化的有效性