IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model

一眼看懂封面预览

提出 IRL-VLA 框架，通过逆强化学习（Inverse Reinforcement Learning）构建奖励世界模型（Reward Wo…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 IRL-VLA 框架，通过逆强化学习（Inverse Reinforcement Learning）构建奖励世界模型（Reward World Model, RWM），实现端到端自动驾驶的闭环强化学习训练
解决现有 VLA 模型的两大局限：开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题

Card 03 核心贡献

首创基于逆强化学习的闭环 VLA 强化学习框架，无需依赖计算昂贵的模拟器即可实现可扩展的奖励估计
设计轻量级奖励世界模型（RWM），直接从真实世界数据中学习奖励结构，规避 Sim2Real 域适应问题
提出三阶段训练范式：模仿策略学习 → 逆环境学习 → 基于 RWM 的强化学习微调
在 NAVSIM v2 端到端驾驶基准上取得 SOTA 性能，获得 CVPR 2025 Autonomous Grand Challenge 第一名亚军（45.0 EDPMS）
首个包含传感器输入的闭环 VLA 强化学习方法

Card 04 方法描述

VLA 架构：包含语义推理模块（基于 Senna-VLM）、3D 推理模块（BEV 编码器 + 检测/地图 token）、统一扩散规划器（生成多样化轨迹）
奖励世界模型：通过逆强化学习从多样化策略中学习，输入多视角相机信息和预测轨迹，输出 EPDMS 八大指标（NC, DAC, DDC, TLC, EP, TTC, LK, HC）的预测分数
强化学习：采用 PPO（Proximal Policy Optimization） 算法，结合 GAE 优势估计和组标准化技术，优化扩散策略的每个去噪步骤
联合损失函数：L = L_RL + w_IL × L_IL，平衡强化探索与模仿学习稳定性

Card 05 数据集与资源

数据集：NAVSIM（基于 OpenScene/nuPlan 重分发），包含 navtrain（1,192 场景）和 navhard（136 评估场景）
输入：8 个 1920×1080 相机 + 融合 LiDAR 点云（当前帧 + 前 3 帧）
图像分辨率：256 × 704（训练时）
骨干网络：V2-99
训练资源：8 张 NVIDIA A100 GPU
训练配置：模仿学习 100 epoch，学习率 1e-4，batch size 32；PPO 参数 ε=0.2, γ=0.99, λ=0.95

Card 06 评估与结果

评估基准：NAVSIM v2（Navhard-real），采用 EPDMS（Extend Predictive Driver Model Score） 作为闭环规划指标
主要指标：NC（无责碰撞）、DAC（可行驶区域合规）、DDC（行驶方向合规）、TLC（红绿灯合规）、EP（自车进度）、TTC（碰撞时间）、LK（车道保持）、HC（历史舒适度）、EC（扩展舒适度）
关键结果：

- IRL-VLA-PT（预训练）：EPDMS 74.4，超越 DiffusionDrive（63.2）、WOTE（66.7）、GTRS-Aug（74.3）

- IRL-VLA-RL（强化学习微调）：EPDMS 74.9，取得 SOTA 性能

- 在 EP（83.9 vs 76.1）和 EC（76.0 vs 54.2）指标上显著优于基于显式评分的 GTRS 方法，同时保持可比的安全性（NC: 98.3 vs 98.9）