一眼看懂
封面预览
提出 PLD (Probe, Learn, Distill) 框架,旨在实现 VLA(视觉-语言-动作)模型的自主提升,减少对人工演示数据的依赖
- 提出 PLD (Probe, Learn, Distill) 框架,旨在实现 VLA(视觉-语言-动作)模型的自主提升,减少对人工演示数据的依赖
- 通过三阶段管道:1)使用残差强化学习获取任务专家;2)基于策略先验的自动数据生成;3)将精选数据蒸馏回基础模型
- 解决核心问题:传统 SFT 依赖成本高昂的人工演示,且数据收集与部署策略解耦导致分布偏移
Card 01
研究单位
研究单位
- NVIDIA(主要研究机构)
- 卡内基梅隆大学 (CMU)
- 加州大学伯克利分校 (UC Berkeley)- 德克萨斯大学奥斯汀分校 (UT Austin)
Card 02
论文概述
论文概述
- 提出 PLD (Probe, Learn, Distill) 框架,旨在实现 VLA(视觉-语言-动作)模型的自主提升,减少对人工演示数据的依赖
- 通过三阶段管道:1)使用残差强化学习获取任务专家;2)基于策略先验的自动数据生成;3)将精选数据蒸馏回基础模型
- 解决核心问题:传统 SFT 依赖成本高昂的人工演示,且数据收集与部署策略解耦导致分布偏移
Card 03
核心贡献
核心贡献
- 自主后训练配方:实现 VLA 模型无需额外人工演示即可自主提升,在 LIBERO 达到 99% 成功率,SimplerEnv 提升超过 50%
- RL 生成数据的系统性研究:分析自动数据收集的关键组件,研究 RL 生成数据对零样本泛化到未见任务的影响
- 残差策略探测与分布感知回放:识别这两个关键技术是实现稳定、高效样本学习和泛化的关键
- 真实机器人验证:在 Franka 臂和 YAM 双臂上实现 100% 成功率,可连续 1 小时执行 GPU 插拔任务无需人工干预
- 架构无关性:方法支持多种 VLA 架构(flow-matching 和自回归动作头)
Card 04
方法描述
方法描述
- 阶段 1 - 在线专家获取:冻结 VLA 主干,训练轻量级残差策略 π_δ,通过离策略 RL 高效探索,Q 函数引导搜索更优解
- 阶段 2 - 自动数据收集:提出混合 rollout 方案,让基础策略先执行随机步数,然后由残差策略接管,生成包含恢复行为的混合轨迹
- 阶段 3 - 监督微调:使用标准 SFT 将多任务数据蒸馏回基础模型,支持不同 VLA 架构
- 核心技术:策略先验暖启动 + 离策略 RL + Cal-QL 保守预训练 + 分布感知的混合回放
Card 05
数据集与资源
数据集与资源
- 模拟基准:LIBERO(130 个语言条件操作任务)、SimplerEnv
- 基础模型:OpenVLA(自回归动作令牌)、π₀(flow-matching 动作头)
- 真实机器人:Franka Emika Panda 7-DoF 机械臂、YAM 6-DoF 双臂系统
- 训练数据:每任务 50 条成功轨迹,离线 + 在线混合回放
- 训练预算:250k 步在线交互
Card 06
评估与结果
评估与结果
- LIBERO 基准:π₀ + PLD 达到 97.2%(Spatial: 97.7%, Object: 98.5%, Goal: 95.3%),OpenVLA + PLD 达到 99.2%
- SimplerEnv 基准:平均 96.6% 成功率(WidowX Pick Eggplant: 97.8%, Pick Carrot: 93.9%, Google Open Drawer: 99.3%, Coke Can: 95.5%)
- 泛化性能:仅用 10% 任务数据训练的 PLD 在未见任务上达到 24.4% 零样本成功率
- 真实世界:Peg insertion 30/30 成功,Cube pick-up 30/30 成功(对比:Human 数据仅 10/30)
- 长程任务:在 LIBERO-10 长程任务上展现技能组合能力