提出 PLD (Probe, Learn, Distill) 框架，旨在实现 VLA（视觉-语言-动作）模型的自主提升，减少对人工演示数据的依赖

论文详情

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

2025-10-30 · 原文 · 翻译 · 2511.00091

提出 PLD (Probe, Learn, Distill) 框架，旨在实现 VLA（视觉-语言-动作）模型的自主提升，减少对人工演示数据的依赖通过三阶段管道：1）使用残差强化学习获取任务专家；2）基于策略先验的自动数据生成；3）将精选数据蒸馏回基础模型解决核心问题：传统 SFT 依赖成本高昂的人工演示，且数据收集与部署策略解耦导致分布偏移

5 分钟读完 6 张阅读卡 NVIDIA（主要研究机构）

一眼看懂封面预览

提出 PLD (Probe, Learn, Distill) 框架，旨在实现 VLA（视觉-语言-动作）模型的自主提升，减少对人工演示数据的依赖

提出 PLD (Probe, Learn, Distill) 框架，旨在实现 VLA（视觉-语言-动作）模型的自主提升，减少对人工演示数据的依赖
通过三阶段管道：1）使用残差强化学习获取任务专家；2）基于策略先验的自动数据生成；3）将精选数据蒸馏回基础模型
解决核心问题：传统 SFT 依赖成本高昂的人工演示，且数据收集与部署策略解耦导致分布偏移

Card 01 研究单位

研究单位

NVIDIA（主要研究机构）
卡内基梅隆大学 (CMU)
加州大学伯克利分校 (UC Berkeley)- 德克萨斯大学奥斯汀分校 (UT Austin)

Card 02 论文概述

论文概述

提出 PLD (Probe, Learn, Distill) 框架，旨在实现 VLA（视觉-语言-动作）模型的自主提升，减少对人工演示数据的依赖
通过三阶段管道：1）使用残差强化学习获取任务专家；2）基于策略先验的自动数据生成；3）将精选数据蒸馏回基础模型
解决核心问题：传统 SFT 依赖成本高昂的人工演示，且数据收集与部署策略解耦导致分布偏移

Card 03 核心贡献

核心贡献

自主后训练配方：实现 VLA 模型无需额外人工演示即可自主提升，在 LIBERO 达到 99% 成功率，SimplerEnv 提升超过 50%
RL 生成数据的系统性研究：分析自动数据收集的关键组件，研究 RL 生成数据对零样本泛化到未见任务的影响
残差策略探测与分布感知回放：识别这两个关键技术是实现稳定、高效样本学习和泛化的关键
真实机器人验证：在 Franka 臂和 YAM 双臂上实现 100% 成功率，可连续 1 小时执行 GPU 插拔任务无需人工干预
架构无关性：方法支持多种 VLA 架构（flow-matching 和自回归动作头）

Card 04 方法描述

方法描述

阶段 1 - 在线专家获取：冻结 VLA 主干，训练轻量级残差策略 π_δ，通过离策略 RL 高效探索，Q 函数引导搜索更优解
阶段 2 - 自动数据收集：提出混合 rollout 方案，让基础策略先执行随机步数，然后由残差策略接管，生成包含恢复行为的混合轨迹
阶段 3 - 监督微调：使用标准 SFT 将多任务数据蒸馏回基础模型，支持不同 VLA 架构
核心技术：策略先验暖启动 + 离策略 RL + Cal-QL 保守预训练 + 分布感知的混合回放

Card 05 数据集与资源

数据集与资源

模拟基准：LIBERO（130 个语言条件操作任务）、SimplerEnv
基础模型：OpenVLA（自回归动作令牌）、π₀（flow-matching 动作头）
真实机器人：Franka Emika Panda 7-DoF 机械臂、YAM 6-DoF 双臂系统
训练数据：每任务 50 条成功轨迹，离线 + 在线混合回放
训练预算：250k 步在线交互

Card 06 评估与结果

评估与结果

LIBERO 基准：π₀ + PLD 达到 97.2%（Spatial: 97.7%, Object: 98.5%, Goal: 95.3%），OpenVLA + PLD 达到 99.2%
SimplerEnv 基准：平均 96.6% 成功率（WidowX Pick Eggplant: 97.8%, Pick Carrot: 93.9%, Google Open Drawer: 99.3%, Coke Can: 95.5%）
泛化性能：仅用 10% 任务数据训练的 PLD 在未见任务上达到 24.4% 零样本成功率
真实世界：Peg insertion 30/30 成功，Cube pick-up 30/30 成功（对比：Human 数据仅 10/30）
长程任务：在 LIBERO-10 长程任务上展现技能组合能力