返回列表 VLA / Vision-Language-Action 每日论文卡

Reinforcement Learning for Large Model: A Survey

论文详情

Reinforcement Learning for Large Model: A Survey

2025-08-11 · 原文 · 翻译 · 2508.08189

本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向 论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进,并分析了超过250篇代表性工作 旨在为研究人员和从业者提供视觉强化学习领域的全景图谱,并指明未来研究方向

4 分钟读完 6 张阅读卡 National University of Singapore (新加坡国立大学)
一眼看懂 封面预览

本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向

  • 本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
  • 论文追溯了从RLHF到可验证奖励范式、从PPO到GRPO的策略优化演进,并分析了超过250篇代表性工作
  • 旨在为研究人员和从业者提供视觉强化学习领域的全景图谱,并指明未来研究方向
Card 01 研究单位

研究单位

  • National University of Singapore (新加坡国立大学)
  • Zhejiang University (浙江大学)
  • The Chinese University of Hong Kong (香港中文大学)
Card 02 论文概述

论文概述

  • 本综述系统梳理了强化学习(RL)与视觉智能交叉领域的最新进展,涵盖多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型四大方向
  • 论文追溯了从RLHF可验证奖励范式、从PPOGRPO的策略优化演进,并分析了超过250篇代表性工作
  • 旨在为研究人员和从业者提供视觉强化学习领域的全景图谱,并指明未来研究方向
Card 03 核心贡献

核心贡献

  • 首次系统综述200+视觉强化学习研究,覆盖MLLMs、视觉生成、统一模型和VLA智能体四大主题支柱
  • 提出基于度量粒度和奖励监督的原则性分类框架,包括图像生成的三种奖励范式
  • 深入分析各子领域的算法设计、奖励工程和基准测试进展,揭示关键趋势(如课程驱动训练、偏好对齐扩散、统一奖励建模)
  • 识别开放挑战:样本效率、泛化能力、安全部署,以及视觉生成中的奖励设计问题
Card 04 方法描述

方法描述

  • 对齐范式:RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)、RLVR(可验证奖励强化学习)
  • 策略优化算法:PPO(近端策略优化,使用学习得到的critic网络估计优势)、GRPO(组相对策略优化,通过组内采样消除critic网络,降低内存消耗)
  • 关键创新:将文本/图像生成形式化为马尔可夫决策过程,引入KL正则化保持策略与参考模型的接近性
Card 05 数据集与资源

数据集与资源

  • 论文为综述性质,未报告具体训练数据集和计算资源
  • 相关资源汇总于:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
Card 06 评估与结果

评估与结果

  • 评估协议:涵盖集合级保真度(set-level fidelity)、样本级偏好(sample-level preference)和状态级稳定性(state-level stability)
  • MLLMs评估:包括传统RL-based MLLMs、空间与3D感知、图像推理、视频推理
  • 视觉生成评估:图像生成、视频生成、3D生成、奖励设计与偏好建模
  • VLA模型评估:GUI自动化、视觉导航、视觉操作
  • 关键趋势:课程驱动训练、偏好对齐扩散模型、统一奖励建模