$$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models$

提出 π_RL 框架，用于对基于流（flow-based）的视觉-语言-动作（VLA）模型进行在线强化学习微调

论文详情

$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

2025-10-29 · 原文 · 翻译 · 2510.25889

提出 π_RL 框架，用于对基于流（flow-based）的视觉-语言-动作（VLA）模型进行在线强化学习微调核心挑战：流匹配模型中动作的对数似然（log-likelihood）难以计算，传统VLA-RL算法无法直接应用于基于流的VLA模型（如 π0、π0.5）目标：通过强化学习使VLA模型能够超越监督微调（SFT）的专家演示性能，提升策略的泛化能力

5 分钟读完 6 张阅读卡论文作者来自多个研究机构（具体机构名称在HTML中以数字上标形式标注：1-6）

一眼看懂封面预览

提出 π_RL 框架，用于对基于流（flow-based）的视觉-语言-动作（VLA）模型进行在线强化学习微调

提出 π_RL 框架，用于对基于流（flow-based）的视觉-语言-动作（VLA）模型进行在线强化学习微调
核心挑战：流匹配模型中动作的对数似然（log-likelihood）难以计算，传统VLA-RL算法无法直接应用于基于流的VLA模型（如 π0、…
目标：通过强化学习使VLA模型能够超越监督微调（SFT）的专家演示性能，提升策略的泛化能力

Card 01 研究单位

研究单位

论文作者来自多个研究机构（具体机构名称在HTML中以数字上标形式标注：1-6）
主要作者包括 Kang Chen、Zhihao Liu、Tonghe Zhang 等人
作者团队涵盖机器学习、机器人学、计算机视觉等领域

Card 02 论文概述

论文概述

提出 π_RL 框架，用于对基于流（flow-based）的视觉-语言-动作（VLA）模型进行在线强化学习微调
核心挑战：流匹配模型中动作的对数似然（log-likelihood）难以计算，传统VLA-RL算法无法直接应用于基于流的VLA模型（如 π0、π0.5）
目标：通过强化学习使VLA模型能够超越监督微调（SFT）的专家演示性能，提升策略的泛化能力

Card 03 核心贡献

核心贡献

Flow-Noise 方法：将去噪过程建模为离散时间MDP，引入可学习的噪声网络实现精确的对数似然计算
Flow-SDE 方法：将确定性ODE转换为等效的SDE以增强探索，构建两层MDP耦合去噪过程与环境交互
首次实现基于流的VLA模型的在线RL微调，在多个基准测试上取得显著性能提升
在 π0 模型上平均提升 +29.2%，在 π0.5 模型上平均提升 +31.0%

Card 04 方法描述

方法描述

Flow-Noise：在去噪过程中注入可学习的高斯噪声，将每步转移建模为高斯分布，通过可学习的噪声网络控制方差，实现精确的对数似然估计
Flow-SDE：基于概率流ODE与SDE的等价性，将确定性采样转换为随机微分方程，引入漂移项和扩散项；采用混合ODE-SDE采样策略加速训练
策略优化：使用 PPO 算法进行策略更新，结合 GAE 计算优势估计，采用 chunk-level 形式化（将H步动作序列视为单步）
Critic 设计：针对不同VLA架构（π0 和 π0.5）设计不同的价值函数估计方式

Card 05 数据集与资源

数据集与资源

基准测试：LIBERO、ManiSkill、MetaWorld、CALVIN 四个机器人操作基准
基础模型：π0 和 π0.5（基于流匹配的VLA模型）
评估设置：分布内（ID）和分布外（OOD）评估
训练使用 PPO 算法，折扣因子 γ 和 GAE 参数 λ 控制

Card 06 评估与结果

评估与结果

分布内性能：π_RL 在所有基准上显著超越 SFT 基线

- π0 模型：平均提升 +29.2%，最高达 97.6%（LIBERO）

- π0.5 模型：平均提升 +31.0%，最高达 98.3%（LIBERO）

分布外泛化：在 ManiSkill OOD 和 CALVIN ABC-D 上性能提升可迁移，但在 MetaWorld ML45 上波动较大
消融实验：验证了 Critic 设计（VLM-based 优于 Expert-based）、噪声注入策略、两层 MDP 形式化的有效性