提出了 DIPOLE（Dichotomous Diffusion Policy Improvement），一种用于稳定且可控的扩散策略优化的新…

论文详情

Dichotomous Diffusion Policy Optimization

2025-12-31 · 原文 · 翻译 · 2601.00898

提出了 DIPOLE（Dichotomous Diffusion Policy Improvement），一种用于稳定且可控的扩散策略优化的新型强化学习算法，旨在解决扩散策略在强化学习训练中的不稳定性和计算效率问题通过引入贪婪化的策略正则化方案，将最优策略分解为一对二元策略：一个是奖励最大化的正向策略，另一个是奖励最小化的负向策略在离线强化学习和离线到在线强化学习设置下进行了广泛评估，并将方法扩展到大规模视觉-…

5 分钟读完 6 张阅读卡中国科学院自动化研究所Foundation Model Research Center

一眼看懂封面预览

提出了 DIPOLE（Dichotomous Diffusion Policy Improvement），一种用于稳定且可控的扩散策略优化的新…

提出了 DIPOLE（Dichotomous Diffusion Policy Improvement），一种用于稳定且可控的扩散策略优化的新…
通过引入贪婪化的策略正则化方案，将最优策略分解为一对二元策略：一个是奖励最大化的正向策略，另一个是奖励最小化的负向策略
在离线强化学习和离线到在线强化学习设置下进行了广泛评估，并将方法扩展到大规模视觉-语言-动作（VLA）模型用于端到端自动驾驶

Card 01 研究单位

研究单位

中国科学院自动化研究所Foundation Model Research Center
中国科学院大学人工智能学院
清华大学AIR（人工智能产业研究院）
香港中文大学
上海交通大学
北京大学
小米汽车

Card 02 论文概述

论文概述

提出了 DIPOLE（Dichotomous Diffusion Policy Improvement），一种用于稳定且可控的扩散策略优化的新型强化学习算法，旨在解决扩散策略在强化学习训练中的不稳定性和计算效率问题
通过引入贪婪化的策略正则化方案，将最优策略分解为一对二元策略：一个是奖励最大化的正向策略，另一个是奖励最小化的负向策略
在离线强化学习和离线到在线强化学习设置下进行了广泛评估，并将方法扩展到大规模视觉-语言-动作（VLA）模型用于端到端自动驾驶

Card 03 核心贡献

核心贡献

提出了一种基于 KL 正则化的扩散策略优化新框架，通过贪婪化目标函数避免了传统指数加权回归的不稳定性问题
首次将最优策略自然分解为一对二元策略（正向策略和负向策略），分别专注于奖励最大化与奖励最小化，实现了稳定训练
实现了与分类器无关的引导机制（CFG）类似的推理时控制，通过线性组合二元策略的分数来灵活控制动作生成的贪婪程度
在 ExORL 和 OGBench 基准上验证了方法的有效性，涵盖 39 个离线任务和 4 个离线到在线任务
将方法扩展到大规模 VLA 模型（DP-VLA，10亿参数），在真实世界自动驾驶基准 NAVSIM 上取得了显著性能提升

Card 04 方法描述

方法描述

从 KL 正则化强化学习目标出发，推导出了贪婪化的策略优化目标，使用有界的 sigmoid 函数代替无界的指数函数作为权重项
证明最优策略可以分解为一对二元策略：正向策略 π⁺ 优先学习高回报样本，负向策略 π⁻ 优先学习低回报样本
通过两个独立的扩散模型分别训练二元策略，使用有界的 sigmoid 权重函数进行加权回归训练
推理时使用线性组合公式生成动作：ε̃ = (1+w)ε⁺ - wε⁻，其中 w 是贪婪因子，控制策略的贪婪程度

Card 05 数据集与资源

数据集与资源

RL 基准测试：ExORL（9 个任务，4 个域）、OGBench（30 个任务，6 个域）
自动驾驶基准：NAVSIM（大规模真实世界自动驾驶数据集）
模型规模：DP-VLA 使用 Florence-2 作为编码器，扩散动作头作为解码器，10 亿参数规模
预训练：使用模仿学习预训练 VLA 模型，随后使用 DIPOLE 进行离线到在线微调
训练资源：采用 LoRA 模块分别为正向和负向策略训练独立的适配器

Card 06 评估与结果

评估与结果

离线 RL：在 ExORL 上 DIPOLE 取得最佳性能，Walker 任务中 stand 得分 953，walk 得分 910，run 得分 442；Quadruped 任务中 walk 得分 928，run 得分 657
离线到在线 RL：在 OGBench 的 4 个默认任务上验证了方法的有效性
自动驾驶：在 NAVSIM 基准上，相比预训练基线实现了显著性能提升，证明了方法在复杂现实世界场景中的适用性
消融实验：验证了拒绝采样机制和贪婪因子 ω 的有效性，DIPOLE w/o rs 变体在不使用拒绝采样时仍表现出竞争力