返回列表 VLA / Vision-Language-Action 每日论文卡
$π^{*}_{0.6}$: a VLA That Learns From Experience
论文研究了视觉-语言-行动(VLA)模型如何通过真实世界部署中的强化学习(RL)进行自我改进,提出了一个名为 RECAP 的通用方法框架。

论文详情

$π^{*}_{0.6}$: a VLA That Learns From Experience

2025-11-18 · 原文 · 翻译 · 2511.14759

论文研究了视觉-语言-行动(VLA)模型如何通过真实世界部署中的强化学习(RL)进行自我改进,提出了一个名为 RECAP 的通用方法框架。 核心目标是解决VLA模型超越模仿学习、利用自主实践经验进行“练习”以掌握技能、提升鲁棒性和执行速度的问题。 提出的 **π*₀.₆ 模型通过 RECAP** 框架进行预训练和在线微调,能够处理折叠衣物、组装纸箱、制作意式咖啡等复杂、精细的现实世界任务。

5 分钟读完 6 张阅读卡 Physical Intelligence
一眼看懂 封面预览

论文研究了视觉-语言-行动(VLA)模型如何通过真实世界部署中的强化学习(RL)进行自我改进,提出了一个名为 RECAP 的通用方法框架。

  • 论文研究了视觉-语言-行动(VLA)模型如何通过真实世界部署中的强化学习(RL)进行自我改进,提出了一个名为 RECAP 的通用方法框架。
  • 核心目标是解决VLA模型超越模仿学习、利用自主实践经验进行“练习”以掌握技能、提升鲁棒性和执行速度的问题。
  • 提出的 **π*₀.₆ 模型通过 RECAP** 框架进行预训练和在线微调,能够处理折叠衣物、组装纸箱、制作意式咖啡等复杂、精细的现实世界任务。
Card 01 研究单位

研究单位

  • Physical Intelligence
Card 02 论文概述

论文概述

  • 论文研究了视觉-语言-行动(VLA)模型如何通过真实世界部署中的强化学习(RL)进行自我改进,提出了一个名为 RECAP 的通用方法框架。
  • 核心目标是解决VLA模型超越模仿学习、利用自主实践经验进行“练习”以掌握技能、提升鲁棒性和执行速度的问题。
  • 提出的 **π*₀.₆ 模型通过 RECAP** 框架进行预训练和在线微调,能够处理折叠衣物、组装纸箱、制作意式咖啡等复杂、精细的现实世界任务。
Card 03 核心贡献

核心贡献

  • 提出了 RECAP 框架,一个将演示数据、自主经验与专家干预整合到强化学习训练管线中的通用方法,通过优势条件策略提取实现VLA模型的自我改进。
  • 发布了 **π*₀.₆ 模型,这是基于 π₀.₆** 模型改进并支持优势条件输入的VLA模型,能够从价值函数中提取改进策略。
  • 在极具挑战性的现实世界任务(如折叠多种衣物、组装纸箱、制作意式咖啡)上验证了方法的有效性,展示了通过自主经验学习显著提升任务吞吐量和成功率的潜力。
  • 提出了一种可扩展的优势条件策略提取方法,避免了传统策略梯度方法在大型流匹配VLA模型上应用的复杂性,能够有效利用异构的离线数据。
Card 04 方法描述

方法描述

  • RECAP 方法包含三个核心步骤循环:1) 在机器人上运行策略收集数据并获得奖励标签及可选的专家干预;2) 使用所有数据训练一个多任务分布式价值函数;3) 基于价值函数估计的优势值,通过优势条件训练来提取改进策略。
  • 核心技术是 优势条件策略提取。策略被训练为能够以一个二元化的“优势指示器”(I)作为额外输入。在推理时,固定I=True可直接采样到改进的策略,无需显式的策略梯度优化。
  • 价值函数训练采用分布式值函数形式,将观测和语言指令映射到离散化的价值分布,通过交叉熵损失进行训练,能够判断任务失败和预测完成所需时间。
Card 05 数据集与资源

数据集与资源

  • 预训练数据集:包含来自多种机器人平台和任务、总计数万小时的多样化演示数据,并结合了网络视觉-语言数据。
  • 模型规模:**π*₀.₆ VLA模型使用 Gemma 3 4B 作为骨干网络,包含一个 860M参数 的专用动作专家。价值函数使用一个较小的 670M参数** VLM骨干。
  • 训练资源:论文未明确说明具体的计算资源(如GPU/TPU数量),但提到了大规模预训练和多机器人数据平台的使用。
Card 06 评估与结果

评估与结果

  • 评估环境与基准:在真实世界的双臂机器人平台上进行评估,任务包括:标准洗衣折叠、多样化衣物折叠、结构化衬衫折叠、双份浓缩咖啡制作、纸箱组装。
  • 主要评估指标:任务成功率(Success Rate)和任务吞吐量(每小时成功完成的任务数)。
  • 关键实验结果

- 在最具挑战性的任务(多样化衣物折叠、咖啡制作)上,应用 RECAP 后,任务吞吐量提升超过 2倍

- 任务失败率显著降低,部分任务降低 2倍 以上。

- 方法能够通过少量数据和在线迭代,有效移除策略中的特定失败模式(如衣物折叠中领口朝下的错误)。

- 相比于PPO等基于策略梯度的方法,本文提出的优势条件方法在相同数据下取得了更好的性能。