一眼看懂
封面预览
论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象
- 论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象
- 提出了一种新的 Sequential Navigation Guidance (SNG) 框架,用于高效表示全球导航信息
- 构建了 SNG-QA 数据集以对齐局部规划与全球规划,并引入 SNG-VLA 模型实现高效融合
Card 01
研究单位
研究单位
- 复旦大学 智能机器人与先进制造学院
- 滴滴出行
- 清华大学 人工智能产业研究院(AIR)
- 中国科学院自动化研究所
Card 02
论文概述
论文概述
- 论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象
- 提出了一种新的 Sequential Navigation Guidance (SNG) 框架,用于高效表示全球导航信息
- 构建了 SNG-QA 数据集以对齐局部规划与全球规划,并引入 SNG-VLA 模型实现高效融合
Card 03
核心贡献
核心贡献
- 提出了 Sequential Navigation Guidance (SNG) 新范式,通过导航路径和实时 Turn-by-Turn (TBT) 信息结构化全球导航信息
- 构建了包含约100K QA对的 SNG-QA 数据集,将推理过程分解为全球规划、局部规划和轨迹规划组件
- 开发了高效的 SNG-VLA 模型,无需感知任务辅助损失函数,在 Bench2Drive 和 NAVSIM 基准测试中达到 state-of-the-art (SOTA) 性能
Card 04
方法描述
方法描述
- SNG 框架整合静态全局路径规划与动态高层指导:导航路径提供长期轨迹约束,TBT 信息提供实时决策逻辑
- SNG-QA 数据集通过自动化注释流程(基于 Qwen2.5 VL 72B)构建,包含三阶段推理:全球导航信息总结、局部规划、轨迹点生成
- SNG-VLA 模型采用多模态特征融合编码器和统一 Transformer 骨干网络,自回归生成文本推理和规划轨迹
Card 05
数据集与资源
数据集与资源
- 基于 NAVSIM 数据集构建 SNG-QA 数据集,包含约100K样本
- 模型骨干采用 Qwen2.5-0.5B,视觉编码器为 SigLIP-So400M
- 训练资源:8块 NVIDIA A100 GPU 80G,每GPU批量大小为8,训练10个周期
Card 06
评估与结果
评估与结果
- 评估基准:NAVSIM(真实世界评估)和 Bench2Drive(CARLA闭环基准)
- NAVSIM 结果:SNG-VLA 在 PDM Score 上达到 88.24,优于所有对比方法
- Bench2Drive 结果:SNG-VLA 在 Driving Score 和 Success Rate 上显著优于 UniAD-Base(分别提升46.6%和119.4%)
- 消融实验表明:驾驶命令无法有效建模导航信息,SNG 的组合使用(导航路径与TBT信息)显著提升性能