返回列表 VLA / Vision-Language-Action 每日论文卡
$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调

论文详情

$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

2025-10-29 · 原文 · 翻译 · 2510.25889

提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调 核心挑战:流匹配模型中动作的对数似然(log-likelihood)难以计算,传统VLA-RL算法无法直接应用于基于流的VLA模型(如 π0、π0.5) 目标:通过强化学习使VLA模型能够超越监督微调(SFT)的专家演示性能,提升策略的泛化能力

5 分钟读完 6 张阅读卡 论文作者来自多个研究机构(具体机构名称在HTML中以数字上标形式标注:1-6)
一眼看懂 封面预览

提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调

  • 提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调
  • 核心挑战:流匹配模型中动作的对数似然(log-likelihood)难以计算,传统VLA-RL算法无法直接应用于基于流的VLA模型(如 π0、…
  • 目标:通过强化学习使VLA模型能够超越监督微调(SFT)的专家演示性能,提升策略的泛化能力
Card 01 研究单位

研究单位

  • 论文作者来自多个研究机构(具体机构名称在HTML中以数字上标形式标注:1-6)
  • 主要作者包括 Kang Chen、Zhihao Liu、Tonghe Zhang 等人
  • 作者团队涵盖机器学习、机器人学、计算机视觉等领域
Card 02 论文概述

论文概述

  • 提出 π_RL 框架,用于对基于流(flow-based)的视觉-语言-动作(VLA)模型进行在线强化学习微调
  • 核心挑战:流匹配模型中动作的对数似然(log-likelihood)难以计算,传统VLA-RL算法无法直接应用于基于流的VLA模型(如 π0、π0.5)
  • 目标:通过强化学习使VLA模型能够超越监督微调(SFT)的专家演示性能,提升策略的泛化能力
Card 03 核心贡献

核心贡献

  • Flow-Noise 方法:将去噪过程建模为离散时间MDP,引入可学习的噪声网络实现精确的对数似然计算
  • Flow-SDE 方法:将确定性ODE转换为等效的SDE以增强探索,构建两层MDP耦合去噪过程与环境交互
  • 首次实现基于流的VLA模型的在线RL微调,在多个基准测试上取得显著性能提升
  • 在 π0 模型上平均提升 +29.2%,在 π0.5 模型上平均提升 +31.0%
Card 04 方法描述

方法描述

  • Flow-Noise:在去噪过程中注入可学习的高斯噪声,将每步转移建模为高斯分布,通过可学习的噪声网络控制方差,实现精确的对数似然估计
  • Flow-SDE:基于概率流ODE与SDE的等价性,将确定性采样转换为随机微分方程,引入漂移项和扩散项;采用混合ODE-SDE采样策略加速训练
  • 策略优化:使用 PPO 算法进行策略更新,结合 GAE 计算优势估计,采用 chunk-level 形式化(将H步动作序列视为单步)
  • Critic 设计:针对不同VLA架构(π0 和 π0.5)设计不同的价值函数估计方式
Card 05 数据集与资源

数据集与资源

  • 基准测试:LIBERO、ManiSkill、MetaWorld、CALVIN 四个机器人操作基准
  • 基础模型:π0 和 π0.5(基于流匹配的VLA模型)
  • 评估设置:分布内(ID)和分布外(OOD)评估
  • 训练使用 PPO 算法,折扣因子 γ 和 GAE 参数 λ 控制
Card 06 评估与结果

评估与结果

  • 分布内性能:π_RL 在所有基准上显著超越 SFT 基线

- π0 模型:平均提升 +29.2%,最高达 97.6%(LIBERO)

- π0.5 模型:平均提升 +31.0%,最高达 98.3%(LIBERO)

  • 分布外泛化:在 ManiSkill OOD 和 CALVIN ABC-D 上性能提升可迁移,但在 MetaWorld ML45 上波动较大
  • 消融实验:验证了 Critic 设计(VLM-based 优于 Expert-based)、噪声注入策略、两层 MDP 形式化的有效性