一眼看懂
封面预览
提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward Wo…
- 提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward Wo…
- 解决现有 VLA 模型的两大局限:开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题
- 首创基于逆强化学习的闭环 VLA 强化学习框架,无需依赖计算昂贵的模拟器即可实现可扩展的奖励估计
Card 01
研究单位
研究单位
- Bosch Corporate Research, Shanghai, China
- School of Communication and Information Engineering, Shanghai University
- School of Mechanical Engineering, Shanghai Jiao Tong University
- Bosch Mobility Solutions, Robert Bosch GmbH, Suzhou
- AIR, Tsinghua University, Beijing
Card 02
论文概述
论文概述
- 提出 IRL-VLA 框架,通过逆强化学习(Inverse Reinforcement Learning)构建奖励世界模型(Reward World Model, RWM),实现端到端自动驾驶的闭环强化学习训练
- 解决现有 VLA 模型的两大局限:开环模仿学习导致次优性能、闭环训练依赖高保真传感器模拟带来的域差距和计算开销问题
Card 03
核心贡献
核心贡献
- 首创基于逆强化学习的闭环 VLA 强化学习框架,无需依赖计算昂贵的模拟器即可实现可扩展的奖励估计
- 设计轻量级奖励世界模型(RWM),直接从真实世界数据中学习奖励结构,规避 Sim2Real 域适应问题
- 提出三阶段训练范式:模仿策略学习 → 逆环境学习 → 基于 RWM 的强化学习微调
- 在 NAVSIM v2 端到端驾驶基准上取得 SOTA 性能,获得 CVPR 2025 Autonomous Grand Challenge 第一名亚军(45.0 EDPMS)
- 首个包含传感器输入的闭环 VLA 强化学习方法
Card 04
方法描述
方法描述
- VLA 架构:包含语义推理模块(基于 Senna-VLM)、3D 推理模块(BEV 编码器 + 检测/地图 token)、统一扩散规划器(生成多样化轨迹)
- 奖励世界模型:通过逆强化学习从多样化策略中学习,输入多视角相机信息和预测轨迹,输出 EPDMS 八大指标(NC, DAC, DDC, TLC, EP, TTC, LK, HC)的预测分数
- 强化学习:采用 PPO(Proximal Policy Optimization) 算法,结合 GAE 优势估计和组标准化技术,优化扩散策略的每个去噪步骤
- 联合损失函数:L = L_RL + w_IL × L_IL,平衡强化探索与模仿学习稳定性
Card 05
数据集与资源
数据集与资源
- 数据集:NAVSIM(基于 OpenScene/nuPlan 重分发),包含 navtrain(1,192 场景)和 navhard(136 评估场景)
- 输入:8 个 1920×1080 相机 + 融合 LiDAR 点云(当前帧 + 前 3 帧)
- 图像分辨率:256 × 704(训练时)
- 骨干网络:V2-99
- 训练资源:8 张 NVIDIA A100 GPU
- 训练配置:模仿学习 100 epoch,学习率 1e-4,batch size 32;PPO 参数 ε=0.2, γ=0.99, λ=0.95
Card 06
评估与结果
评估与结果
- 评估基准:NAVSIM v2(Navhard-real),采用 EPDMS(Extend Predictive Driver Model Score) 作为闭环规划指标
- 主要指标:NC(无责碰撞)、DAC(可行驶区域合规)、DDC(行驶方向合规)、TLC(红绿灯合规)、EP(自车进度)、TTC(碰撞时间)、LK(车道保持)、HC(历史舒适度)、EC(扩展舒适度)
- 关键结果:
- IRL-VLA-PT(预训练):EPDMS 74.4,超越 DiffusionDrive(63.2)、WOTE(66.7)、GTRS-Aug(74.3)
- IRL-VLA-RL(强化学习微调):EPDMS 74.9,取得 SOTA 性能
- 在 EP(83.9 vs 76.1)和 EC(76.0 vs 54.2)指标上显著优于基于显式评分的 GTRS 方法,同时保持可比的安全性(NC: 98.3 vs 98.9)
- 消融实验:验证了三层层次化推理(3D 推理 + 语义推理 + 扩散规划器)的有效性,以及模仿损失权重 w_IL=0.5 的最优平衡