论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解，未能有效利用全球导航信息的现象

论文详情

Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving

2026-04-14 · 原文 · 翻译 · 2604.12208

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解，未能有效利用全球导航信息的现象提出了一种新的 Sequential Navigation Guidance (SNG) 框架，用于高效表示全球导航信息构建了 SNG-QA 数据集以对齐局部规划与全球规划，并引入 SNG-VLA 模型实现高效融合

4 分钟读完 6 张阅读卡复旦大学智能机器人与先进制造学院

一眼看懂封面预览

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解，未能有效利用全球导航信息的现象

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解，未能有效利用全球导航信息的现象
提出了一种新的 Sequential Navigation Guidance (SNG) 框架，用于高效表示全球导航信息
构建了 SNG-QA 数据集以对齐局部规划与全球规划，并引入 SNG-VLA 模型实现高效融合

Card 01 研究单位

研究单位

复旦大学 智能机器人与先进制造学院
滴滴出行
清华大学 人工智能产业研究院（AIR）
中国科学院自动化研究所

Card 02 论文概述

论文概述

论文揭示了现有端到端自动驾驶系统过度依赖局部场景理解，未能有效利用全球导航信息的现象
提出了一种新的 Sequential Navigation Guidance (SNG) 框架，用于高效表示全球导航信息
构建了 SNG-QA 数据集以对齐局部规划与全球规划，并引入 SNG-VLA 模型实现高效融合

Card 03 核心贡献

核心贡献

提出了 Sequential Navigation Guidance (SNG) 新范式，通过导航路径和实时 Turn-by-Turn (TBT) 信息结构化全球导航信息
构建了包含约100K QA对的 SNG-QA 数据集，将推理过程分解为全球规划、局部规划和轨迹规划组件
开发了高效的 SNG-VLA 模型，无需感知任务辅助损失函数，在 Bench2Drive 和 NAVSIM 基准测试中达到 state-of-the-art (SOTA) 性能

Card 04 方法描述

方法描述

SNG 框架整合静态全局路径规划与动态高层指导：导航路径提供长期轨迹约束，TBT 信息提供实时决策逻辑
SNG-QA 数据集通过自动化注释流程（基于 Qwen2.5 VL 72B）构建，包含三阶段推理：全球导航信息总结、局部规划、轨迹点生成
SNG-VLA 模型采用多模态特征融合编码器和统一 Transformer 骨干网络，自回归生成文本推理和规划轨迹

Card 05 数据集与资源

数据集与资源

基于 NAVSIM 数据集构建 SNG-QA 数据集，包含约100K样本
模型骨干采用 Qwen2.5-0.5B，视觉编码器为 SigLIP-So400M
训练资源：8块 NVIDIA A100 GPU 80G，每GPU批量大小为8，训练10个周期

Card 06 评估与结果

评估与结果

评估基准：NAVSIM（真实世界评估）和 Bench2Drive（CARLA闭环基准）
NAVSIM 结果：SNG-VLA 在 PDM Score 上达到 88.24，优于所有对比方法
Bench2Drive 结果：SNG-VLA 在 Driving Score 和 Success Rate 上显著优于 UniAD-Base（分别提升46.6%和119.4%）
消融实验表明：驾驶命令无法有效建模导航信息，SNG 的组合使用（导航路径与TBT信息）显著提升性能