一眼看懂
封面预览
提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新…
- 提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新…
- 通过引入贪婪化的策略正则化方案,将最优策略分解为一对二元策略:一个是奖励最大化的正向策略,另一个是奖励最小化的负向策略
- 在离线强化学习和离线到在线强化学习设置下进行了广泛评估,并将方法扩展到大规模视觉-语言-动作(VLA)模型用于端到端自动驾驶
Card 01
研究单位
研究单位
- 中国科学院自动化研究所Foundation Model Research Center
- 中国科学院大学人工智能学院
- 清华大学AIR(人工智能产业研究院)
- 香港中文大学
- 上海交通大学
- 北京大学
- 小米汽车
Card 02
论文概述
论文概述
- 提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新型强化学习算法,旨在解决扩散策略在强化学习训练中的不稳定性和计算效率问题
- 通过引入贪婪化的策略正则化方案,将最优策略分解为一对二元策略:一个是奖励最大化的正向策略,另一个是奖励最小化的负向策略
- 在离线强化学习和离线到在线强化学习设置下进行了广泛评估,并将方法扩展到大规模视觉-语言-动作(VLA)模型用于端到端自动驾驶
Card 03
核心贡献
核心贡献
- 提出了一种基于 KL 正则化的扩散策略优化新框架,通过贪婪化目标函数避免了传统指数加权回归的不稳定性问题
- 首次将最优策略自然分解为一对二元策略(正向策略和负向策略),分别专注于奖励最大化与奖励最小化,实现了稳定训练
- 实现了与分类器无关的引导机制(CFG)类似的推理时控制,通过线性组合二元策略的分数来灵活控制动作生成的贪婪程度
- 在 ExORL 和 OGBench 基准上验证了方法的有效性,涵盖 39 个离线任务和 4 个离线到在线任务
- 将方法扩展到大规模 VLA 模型(DP-VLA,10亿参数),在真实世界自动驾驶基准 NAVSIM 上取得了显著性能提升
Card 04
方法描述
方法描述
- 从 KL 正则化强化学习目标出发,推导出了贪婪化的策略优化目标,使用有界的 sigmoid 函数代替无界的指数函数作为权重项
- 证明最优策略可以分解为一对二元策略:正向策略 π⁺ 优先学习高回报样本,负向策略 π⁻ 优先学习低回报样本
- 通过两个独立的扩散模型分别训练二元策略,使用有界的 sigmoid 权重函数进行加权回归训练
- 推理时使用线性组合公式生成动作:ε̃ = (1+w)ε⁺ - wε⁻,其中 w 是贪婪因子,控制策略的贪婪程度
Card 05
数据集与资源
数据集与资源
- RL 基准测试:ExORL(9 个任务,4 个域)、OGBench(30 个任务,6 个域)
- 自动驾驶基准:NAVSIM(大规模真实世界自动驾驶数据集)
- 模型规模:DP-VLA 使用 Florence-2 作为编码器,扩散动作头作为解码器,10 亿参数规模
- 预训练:使用模仿学习预训练 VLA 模型,随后使用 DIPOLE 进行离线到在线微调
- 训练资源:采用 LoRA 模块分别为正向和负向策略训练独立的适配器
Card 06
评估与结果
评估与结果
- 离线 RL:在 ExORL 上 DIPOLE 取得最佳性能,Walker 任务中 stand 得分 953,walk 得分 910,run 得分 442;Quadruped 任务中 walk 得分 928,run 得分 657
- 离线到在线 RL:在 OGBench 的 4 个默认任务上验证了方法的有效性
- 自动驾驶:在 NAVSIM 基准上,相比预训练基线实现了显著性能提升,证明了方法在复杂现实世界场景中的适用性
- 消融实验:验证了拒绝采样机制和贪婪因子 ω 的有效性,DIPOLE w/o rs 变体在不使用拒绝采样时仍表现出竞争力