一眼看懂
封面预览
本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
- 本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
- 论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进,并分析了超过250篇代表性工作
- 旨在为研究人员和从业者提供视觉强化学习领域的全景图谱,并指明未来研究方向
Card 01
研究单位
研究单位
- National University of Singapore (新加坡国立大学)
- Zhejiang University (浙江大学)
- The Chinese University of Hong Kong (香港中文大学)
Card 02
论文概述
论文概述
- 本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
- 论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进,并分析了超过250篇代表性工作
- 旨在为研究人员和从业者提供视觉强化学习领域的全景图谱,并指明未来研究方向
Card 03
核心贡献
核心贡献
- 首次系统综述200+视觉强化学习研究,覆盖MLLMs、视觉生成、统一模型和VLA智能体四大主题支柱
- 提出基于度量粒度和奖励监督的原则性分类框架,包括图像生成的三种奖励范式
- 深入分析各子领域的算法设计、奖励工程和基准测试进展,揭示关键趋势(如课程驱动训练、偏好对齐扩散、统一奖励建模)
- 识别开放挑战:样本效率、泛化能力、安全部署,以及视觉生成中的奖励设计问题
Card 04
方法描述
方法描述
- 对齐范式:RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)、RLVR(可验证奖励强化学习)
- 策略优化算法:PPO(近端策略优化,使用学习得到的critic网络估计优势)、GRPO(组相对策略优化,通过组内采样消除critic网络,降低内存消耗)
- 关键创新:将文本/图像生成形式化为马尔可夫决策过程,引入KL正则化保持策略与参考模型的接近性
Card 05
数据集与资源
数据集与资源
- 论文为综述性质,未报告具体训练数据集和计算资源
- 相关资源汇总于:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
Card 06
评估与结果
评估与结果
- 评估协议:涵盖集合级保真度(set-level fidelity)、样本级偏好(sample-level preference)和状态级稳定性(state-level stability)
- MLLMs评估:包括传统RL-based MLLMs、空间与3D感知、图像推理、视频推理
- 视觉生成评估:图像生成、视频生成、3D生成、奖励设计与偏好建模
- VLA模型评估:GUI自动化、视觉导航、视觉操作
- 关键趋势:课程驱动训练、偏好对齐扩散模型、统一奖励建模