Reinforcement Learning for Large Model: A Survey

论文详情

Reinforcement Learning for Large Model: A Survey

2025-08-11 · 原文 · 翻译 · 2508.08189

本综述系统梳理了强化学习（RL）与视觉智能交叉领域的最新进展，涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进，并分析了超过250篇代表性工作旨在为研究人员和从业者提供视觉强化学习领域的全景图谱，并指明未来研究方向

4 分钟读完 6 张阅读卡 National University of Singapore (新加坡国立大学)

一眼看懂封面预览

本综述系统梳理了强化学习（RL）与视觉智能交叉领域的最新进展，涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向

本综述系统梳理了强化学习（RL）与视觉智能交叉领域的最新进展，涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进，并分析了超过250篇代表性工作
旨在为研究人员和从业者提供视觉强化学习领域的全景图谱，并指明未来研究方向

Card 01 研究单位

研究单位

National University of Singapore (新加坡国立大学)
Zhejiang University (浙江大学)
The Chinese University of Hong Kong (香港中文大学)

Card 02 论文概述

论文概述

本综述系统梳理了强化学习（RL）与视觉智能交叉领域的最新进展，涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进，并分析了超过250篇代表性工作
旨在为研究人员和从业者提供视觉强化学习领域的全景图谱，并指明未来研究方向

Card 03 核心贡献

核心贡献

首次系统综述200+视觉强化学习研究，覆盖MLLMs、视觉生成、统一模型和VLA智能体四大主题支柱
提出基于度量粒度和奖励监督的原则性分类框架，包括图像生成的三种奖励范式
深入分析各子领域的算法设计、奖励工程和基准测试进展，揭示关键趋势（如课程驱动训练、偏好对齐扩散、统一奖励建模）
识别开放挑战：样本效率、泛化能力、安全部署，以及视觉生成中的奖励设计问题

Card 04 方法描述

方法描述

对齐范式：RLHF（基于人类反馈的强化学习）、DPO（直接偏好优化）、RLVR（可验证奖励强化学习）
策略优化算法：PPO（近端策略优化，使用学习得到的critic网络估计优势）、GRPO（组相对策略优化，通过组内采样消除critic网络，降低内存消耗）
关键创新：将文本/图像生成形式化为马尔可夫决策过程，引入KL正则化保持策略与参考模型的接近性

Card 05 数据集与资源

数据集与资源

论文为综述性质，未报告具体训练数据集和计算资源
相关资源汇总于：https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning

Card 06 评估与结果

评估与结果

评估协议：涵盖集合级保真度（set-level fidelity）、样本级偏好（sample-level preference）和状态级稳定性（state-level stability）
MLLMs评估：包括传统RL-based MLLMs、空间与3D感知、图像推理、视频推理
视觉生成评估：图像生成、视频生成、3D生成、奖励设计与偏好建模
VLA模型评估：GUI自动化、视觉导航、视觉操作
关键趋势：课程驱动训练、偏好对齐扩散模型、统一奖励建模