返回列表 VLA / Vision-Language-Action 每日论文卡
Dichotomous Diffusion Policy Optimization
提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新…

论文详情

Dichotomous Diffusion Policy Optimization

2025-12-31 · 原文 · 翻译 · 2601.00898

提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新型强化学习算法,旨在解决扩散策略在强化学习训练中的不稳定性和计算效率问题 通过引入贪婪化的策略正则化方案,将最优策略分解为一对二元策略:一个是奖励最大化的正向策略,另一个是奖励最小化的负向策略 在离线强化学习和离线到在线强化学习设置下进行了广泛评估,并将方法扩展到大规模视觉-…

5 分钟读完 6 张阅读卡 中国科学院自动化研究所Foundation Model Research Center
一眼看懂 封面预览

提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新…

  • 提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新…
  • 通过引入贪婪化的策略正则化方案,将最优策略分解为一对二元策略:一个是奖励最大化的正向策略,另一个是奖励最小化的负向策略
  • 在离线强化学习和离线到在线强化学习设置下进行了广泛评估,并将方法扩展到大规模视觉-语言-动作(VLA)模型用于端到端自动驾驶
Card 01 研究单位

研究单位

  • 中国科学院自动化研究所Foundation Model Research Center
  • 中国科学院大学人工智能学院
  • 清华大学AIR(人工智能产业研究院)
  • 香港中文大学
  • 上海交通大学
  • 北京大学
  • 小米汽车
Card 02 论文概述

论文概述

  • 提出了 DIPOLE(Dichotomous Diffusion Policy Improvement),一种用于稳定且可控的扩散策略优化的新型强化学习算法,旨在解决扩散策略在强化学习训练中的不稳定性和计算效率问题
  • 通过引入贪婪化的策略正则化方案,将最优策略分解为一对二元策略:一个是奖励最大化的正向策略,另一个是奖励最小化的负向策略
  • 在离线强化学习和离线到在线强化学习设置下进行了广泛评估,并将方法扩展到大规模视觉-语言-动作(VLA)模型用于端到端自动驾驶
Card 03 核心贡献

核心贡献

  • 提出了一种基于 KL 正则化的扩散策略优化新框架,通过贪婪化目标函数避免了传统指数加权回归的不稳定性问题
  • 首次将最优策略自然分解为一对二元策略(正向策略和负向策略),分别专注于奖励最大化与奖励最小化,实现了稳定训练
  • 实现了与分类器无关的引导机制(CFG)类似的推理时控制,通过线性组合二元策略的分数来灵活控制动作生成的贪婪程度
  • 在 ExORL 和 OGBench 基准上验证了方法的有效性,涵盖 39 个离线任务和 4 个离线到在线任务
  • 将方法扩展到大规模 VLA 模型(DP-VLA,10亿参数),在真实世界自动驾驶基准 NAVSIM 上取得了显著性能提升
Card 04 方法描述

方法描述

  • 从 KL 正则化强化学习目标出发,推导出了贪婪化的策略优化目标,使用有界的 sigmoid 函数代替无界的指数函数作为权重项
  • 证明最优策略可以分解为一对二元策略:正向策略 π⁺ 优先学习高回报样本,负向策略 π⁻ 优先学习低回报样本
  • 通过两个独立的扩散模型分别训练二元策略,使用有界的 sigmoid 权重函数进行加权回归训练
  • 推理时使用线性组合公式生成动作:ε̃ = (1+w)ε⁺ - wε⁻,其中 w 是贪婪因子,控制策略的贪婪程度
Card 05 数据集与资源

数据集与资源

  • RL 基准测试:ExORL(9 个任务,4 个域)、OGBench(30 个任务,6 个域)
  • 自动驾驶基准:NAVSIM(大规模真实世界自动驾驶数据集)
  • 模型规模:DP-VLA 使用 Florence-2 作为编码器,扩散动作头作为解码器,10 亿参数规模
  • 预训练:使用模仿学习预训练 VLA 模型,随后使用 DIPOLE 进行离线到在线微调
  • 训练资源:采用 LoRA 模块分别为正向和负向策略训练独立的适配器
Card 06 评估与结果

评估与结果

  • 离线 RL:在 ExORL 上 DIPOLE 取得最佳性能,Walker 任务中 stand 得分 953,walk 得分 910,run 得分 442;Quadruped 任务中 walk 得分 928,run 得分 657
  • 离线到在线 RL:在 OGBench 的 4 个默认任务上验证了方法的有效性
  • 自动驾驶:在 NAVSIM 基准上,相比预训练基线实现了显著性能提升,证明了方法在复杂现实世界场景中的适用性
  • 消融实验:验证了拒绝采样机制和贪婪因子 ω 的有效性,DIPOLE w/o rs 变体在不使用拒绝采样时仍表现出竞争力