返回列表 VLA / Vision-Language-Action 每日论文卡

IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model

论文详情

IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model

2025-08-07 · 原文 · 翻译 · 2508.06571

提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward World Model, RWM),实现端到端自动驾驶的闭环强化学习训练 解决现有 VLA 模型的两大局限:开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题

7 分钟读完 6 张阅读卡 Bosch Corporate Research, Shanghai, China
一眼看懂 封面预览

提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward Wo…

  • 提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward Wo…
  • 解决现有 VLA 模型的两大局限:开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题
  • 首创基于逆强化学习的闭环 VLA 强化学习框架,无需依赖计算昂贵的模拟器即可实现可扩展的奖励估计
Card 01 研究单位

研究单位

  • Bosch Corporate Research, Shanghai, China
  • School of Communication and Information Engineering, Shanghai University
  • School of Mechanical Engineering, Shanghai Jiao Tong University
  • Bosch Mobility Solutions, Robert Bosch GmbH, Suzhou
  • AIR, Tsinghua University, Beijing
Card 02 论文概述

论文概述

  • 提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward World Model, RWM),实现端到端自动驾驶的闭环强化学习训练
  • 解决现有 VLA 模型的两大局限:开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题
Card 03 核心贡献

核心贡献

  • 首创基于逆强化学习的闭环 VLA 强化学习框架,无需依赖计算昂贵的模拟器即可实现可扩展的奖励估计
  • 设计轻量级奖励世界模型(RWM),直接从真实世界数据中学习奖励结构,规避 Sim2Real 域适应问题
  • 提出三阶段训练范式:模仿策略学习 → 逆环境学习 → 基于 RWM 的强化学习微调
  • NAVSIM v2 端到端驾驶基准上取得 SOTA 性能,获得 CVPR 2025 Autonomous Grand Challenge 第一名亚军(45.0 EDPMS)
  • 首个包含传感器输入的闭环 VLA 强化学习方法
Card 04 方法描述

方法描述

  • VLA 架构:包含语义推理模块(基于 Senna-VLM)、3D 推理模块(BEV 编码器 + 检测/地图 token)、统一扩散规划器(生成多样化轨迹)
  • 奖励世界模型:通过逆强化学习从多样化策略中学习,输入多视角相机信息和预测轨迹,输出 EPDMS 八大指标(NC, DAC, DDC, TLC, EP, TTC, LK, HC)的预测分数
  • 强化学习:采用 PPO(Proximal Policy Optimization) 算法,结合 GAE 优势估计和组标准化技术,优化扩散策略的每个去噪步骤
  • 联合损失函数:L = L_RL + w_IL × L_IL,平衡强化探索与模仿学习稳定性
Card 05 数据集与资源

数据集与资源

  • 数据集NAVSIM(基于 OpenScene/nuPlan 重分发),包含 navtrain(1,192 场景)和 navhard(136 评估场景)
  • 输入:8 个 1920×1080 相机 + 融合 LiDAR 点云(当前帧 + 前 3 帧)
  • 图像分辨率:256 × 704(训练时)
  • 骨干网络V2-99
  • 训练资源8 张 NVIDIA A100 GPU
  • 训练配置:模仿学习 100 epoch,学习率 1e-4,batch size 32;PPO 参数 ε=0.2, γ=0.99, λ=0.95
Card 06 评估与结果

评估与结果

  • 评估基准NAVSIM v2(Navhard-real),采用 EPDMS(Extend Predictive Driver Model Score) 作为闭环规划指标
  • 主要指标:NC(无责碰撞)、DAC(可行驶区域合规)、DDC(行驶方向合规)、TLC(红绿灯合规)、EP(自车进度)、TTC(碰撞时间)、LK(车道保持)、HC(历史舒适度)、EC(扩展舒适度)
  • 关键结果

- IRL-VLA-PT(预训练):EPDMS 74.4,超越 DiffusionDrive(63.2)、WOTE(66.7)、GTRS-Aug(74.3)

- IRL-VLA-RL(强化学习微调):EPDMS 74.9,取得 SOTA 性能

- 在 EP(83.9 vs 76.1)和 EC(76.0 vs 54.2)指标上显著优于基于显式评分的 GTRS 方法,同时保持可比的安全性(NC: 98.3 vs 98.9)

  • 消融实验:验证了三层层次化推理(3D 推理 + 语义推理 + 扩散规划器)的有效性,以及模仿损失权重 w_IL=0.5 的最优平衡