OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision

一眼看懂封面预览

提出 OccVLA（Occupancy Vision-Language-Action），一种将3D占用表示融入统一多模态推理过程的新型框架，用…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 OccVLA（Occupancy Vision-Language-Action），一种将3D占用表示融入统一多模态推理过程的新型框架，用于解决自动驾驶中多模态大语言模型（MLLMs）缺乏鲁棒3D空间理解能力的问题
针对两个关键挑战：（1）无需昂贵人工标注即可构建可访问且有效的3D表示；（2）通过大规模3D视觉-语言预训练保留细粒度空间细节
将密集3D占用同时作为预测输出和监督信号，使模型仅通过2D视觉输入即可学习细粒度空间结构

Card 03 核心贡献

Card 04 方法描述

架构设计：基于共享的Vision-Language-Occupancy（V-L-O）骨干网络，统一3D占用预测和语言建模
占用预测模块：使用可学习的占用查询通过交叉注意力从VLM中间层获取视觉特征；采用紧凑隐空间预测解决占用稀疏性问题，通过VQ-VAE解码器映射回高分辨率占用空间
运动规划：将任务分解为元动作预测（速度动作+方向动作）和轨迹生成两阶段；使用GPT-4o自动生成思维链（CoT）训练数据，轻量级MLP规划头将元动作转换为未来轨迹坐标
三阶段训练：阶段1为自动驾驶场景VLM预训练；阶段2为占用-语言联合训练；阶段3为规划头训练
关键创新：占用令牌作为隐式推理过程，推理时可跳过；采用非自回归占用损失与自回归文本损失的联合优化

Card 05 数据集与资源

Card 06 评估与结果

运动规划（nuScenes）：平均L2距离0.28m，优于EMMA（0.32m）和OmniDrive（0.33m）；1s/2s/3s L2距离分别为0.18m/0.26m/0.40m，在2s和3s上达到最优
与占用输入方法对比：仅使用相机输入（C）达到与使用真值占用输入（Occ-LLM）相当性能（平均0.28m vs 0.28m），显著优于其他相机输入方法
NuScenes-QA：总体准确率59.5%，超越LLaVA（47.4%）、LiDAR-LLM（48.6%）、OccLLaMA3.1（54.5%）和OpenDriveVLA（58.2%）；在exist（84.3%）、object（54.5%）、status（59.5%）、comparison（67.2%）等子任务上取得最优或次优
占用预测：mIoU约10%，对车道、车辆、行人等关键元素预测准确，但受限于单时间步输入在处理遮挡区域时的局限
消融实验：占用监督使元动作预测性能提升约1.5%；自车轨迹信息显著改善规划性能（平均L2从0.48m降至0.28m）