返回列表 VLA / Vision-Language-Action 每日论文卡
Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving
论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象

论文详情

Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving

2026-04-14 · 原文 · 翻译 · 2604.12208

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象 提出了一种新的 Sequential Navigation Guidance (SNG) 框架,用于高效表示全球导航信息 构建了 SNG-QA 数据集以对齐局部规划与全球规划,并引入 SNG-VLA 模型实现高效融合

4 分钟读完 6 张阅读卡 复旦大学 智能机器人与先进制造学院
一眼看懂 封面预览

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象

  • 论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象
  • 提出了一种新的 Sequential Navigation Guidance (SNG) 框架,用于高效表示全球导航信息
  • 构建了 SNG-QA 数据集以对齐局部规划与全球规划,并引入 SNG-VLA 模型实现高效融合
Card 01 研究单位

研究单位

  • 复旦大学 智能机器人与先进制造学院
  • 滴滴出行
  • 清华大学 人工智能产业研究院(AIR)
  • 中国科学院自动化研究所
Card 02 论文概述

论文概述

  • 论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解,未能有效利用全球导航信息的现象
  • 提出了一种新的 Sequential Navigation Guidance (SNG) 框架,用于高效表示全球导航信息
  • 构建了 SNG-QA 数据集以对齐局部规划与全球规划,并引入 SNG-VLA 模型实现高效融合
Card 03 核心贡献

核心贡献

  • 提出了 Sequential Navigation Guidance (SNG) 新范式,通过导航路径和实时 Turn-by-Turn (TBT) 信息结构化全球导航信息
  • 构建了包含约100K QA对的 SNG-QA 数据集,将推理过程分解为全球规划、局部规划和轨迹规划组件
  • 开发了高效的 SNG-VLA 模型,无需感知任务辅助损失函数,在 Bench2DriveNAVSIM 基准测试中达到 state-of-the-art (SOTA) 性能
Card 04 方法描述

方法描述

  • SNG 框架整合静态全局路径规划与动态高层指导:导航路径提供长期轨迹约束,TBT 信息提供实时决策逻辑
  • SNG-QA 数据集通过自动化注释流程(基于 Qwen2.5 VL 72B)构建,包含三阶段推理:全球导航信息总结、局部规划、轨迹点生成
  • SNG-VLA 模型采用多模态特征融合编码器和统一 Transformer 骨干网络,自回归生成文本推理和规划轨迹
Card 05 数据集与资源

数据集与资源

  • 基于 NAVSIM 数据集构建 SNG-QA 数据集,包含约100K样本
  • 模型骨干采用 Qwen2.5-0.5B,视觉编码器为 SigLIP-So400M
  • 训练资源:8块 NVIDIA A100 GPU 80G,每GPU批量大小为8,训练10个周期
Card 06 评估与结果

评估与结果

  • 评估基准:NAVSIM(真实世界评估)和 Bench2Drive(CARLA闭环基准)
  • NAVSIM 结果:SNG-VLA 在 PDM Score 上达到 88.24,优于所有对比方法
  • Bench2Drive 结果:SNG-VLA 在 Driving Score 和 Success Rate 上显著优于 UniAD-Base(分别提升46.6%和119.4%)
  • 消融实验表明:驾驶命令无法有效建模导航信息,SNG 的组合使用(导航路径与TBT信息)显著提升性能