返回列表 VLA / Vision-Language-Action 每日论文卡
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
提出 DrivePI,首个统一的空间感知 4D 多模态大语言模型(MLLM)框架,用于端到端自动驾驶

论文详情

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

2025-12-14 · 原文 · 翻译 · 2512.12799

提出 DrivePI,首个统一的空间感知 4D 多模态大语言模型(MLLM)框架,用于端到端自动驾驶 同时实现粗粒度的语言空间理解与细粒度的 3D 感知(occupancy)、预测(flow)和规划(planning),弥合视觉-动作(VA)模型与视觉-语言-动作(VLA)模型之间的鸿沟 解决现有 VLA 模型缺乏细粒度 3D 中间输出导致的可解释性和安全性不足问题,以及 VA 模型缺乏自然语言交互能力的问题

6 分钟读完 6 张阅读卡 The University of Hong Kong(香港大学)
一眼看懂 封面预览

提出 DrivePI,首个统一的空间感知 4D 多模态大语言模型(MLLM)框架,用于端到端自动驾驶

  • 提出 DrivePI,首个统一的空间感知 4D 多模态大语言模型(MLLM)框架,用于端到端自动驾驶
  • 同时实现粗粒度的语言空间理解与细粒度的 3D 感知(occupancy)、预测(flow)和规划(planning),弥合视觉-动作(VA)模…
  • 解决现有 VLA 模型缺乏细粒度 3D 中间输出导致的可解释性和安全性不足问题,以及 VA 模型缺乏自然语言交互能力的问题
Card 01 研究单位

研究单位

  • The University of Hong Kong(香港大学)
  • Yinwang Intelligent Technology Co. Ltd.(引望智能技术有限公司)
  • Tianjin University(天津大学)
  • Huazhong University of Science and Technology(华中科技大学)
Card 02 论文概述

论文概述

  • 提出 DrivePI,首个统一的空间感知 4D 多模态大语言模型(MLLM)框架,用于端到端自动驾驶
  • 同时实现粗粒度的语言空间理解与细粒度的 3D 感知(occupancy)、预测(flow)和规划(planning),弥合视觉-动作(VA)模型与视觉-语言-动作(VLA)模型之间的鸿沟
  • 解决现有 VLA 模型缺乏细粒度 3D 中间输出导致的可解释性和安全性不足问题,以及 VA 模型缺乏自然语言交互能力的问题
Card 03 核心贡献

核心贡献

  • 提出首个统一的空间感知 4D MLLM 框架 DrivePI,无缝集成粗粒度语言理解与细粒度 3D 感知能力
  • 引入 LiDAR 作为补充感知模态,结合多视角图像提供精确 3D 几何信息,增强 MLLM 的空间理解能力
  • 开发数据引擎生成 text-occupancytext-flow QA 对,构建 4D 空间理解基准测试
  • 仅用 0.5B 参数Qwen2.5 作为 MLLM 主干,在 3D occupancy、flow 和规划任务上超越现有专用 VA 模型,同时保持与 VLA 框架相当的语言交互能力
Card 04 方法描述

方法描述

  • 采用多模态视觉编码器处理多视角图像和 LiDAR 点云,生成潜在 BEV 特征
  • 设计 Spatial Projector 将 BEV 特征映射到语言空间,通过 patchify 和交叉注意力机制保留细粒度空间信息
  • 四个专用输出头:Text Head(场景理解)、3D Occupancy Head(体素级感知)、Occupancy Flow Head(像素级运动预测)、Action Diffusion Head(轨迹规划)
  • 端到端联合优化所有任务,采用加权损失函数平衡语言理解、3D 感知、预测和规划目标
Card 05 数据集与资源

数据集与资源

  • nuScenes 数据集(750 训练场景,150 验证场景,150 测试场景)
  • OpenOccOcc3D 用于 3D occupancy 评估
  • nuScenes-QA(377k QA 对)及自生成数据(84k 场景描述、560k 4D 空间推理 QA、24k 规划推理 QA)
  • 模型规模:0.5B 参数(Qwen2.5-0.5B),可选 3B 版本
  • 训练资源:8 × NVIDIA L40S GPUs
Card 06 评估与结果

评估与结果

  • 3D Occupancy (OpenOcc)RayIoU 49.3%,超越 FB-OCC 10.3%,超越 ALOcc-Flow-3D 7.4%
  • Occupancy Flow (OpenOcc)mAVE 0.509,优于 FB-OCC 的 0.591
  • Planning (nuScenes):L2 error 0.40m,碰撞率 0.11%(使用 ego status),比 ORION 降低 70% 碰撞率(0.37%→0.11%),比 VAD 降低 32% L2 误差(0.72m→0.49m,无 ego status)
  • Text Understanding (nuScenes-QA):准确率 60.7%,超越 OpenDriveVLA-7B 2.5%
  • Occ3D:RayIoU 46.0%,超越 OPUS 4.8%