NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

论文详情

NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

2025-07-07 · 原文 · 翻译 · 2507.05227

针对当前自动驾驶系统主要依赖局部视觉信息，缺乏人类驾驶员常用的全局导航上下文知识这一关键问题，提出NavigScene辅助数据集和三个互补的训练范式。旨在通过模拟类似Google Maps的导航指令，为自动驾驶系统提供超视距 (BVR) 的全局知识，从而提升其在感知、预测、规划和问答任务中的综合性能。

4 分钟读完 6 张阅读卡 Center for Research in Computer Vision, University…

一眼看懂封面预览

针对当前自动驾驶系统主要依赖局部视觉信息，缺乏人类驾驶员常用的全局导航上下文知识这一关键问题，提出NavigScene辅助数据集和三个互补的训…

针对当前自动驾驶系统主要依赖局部视觉信息，缺乏人类驾驶员常用的全局导航上下文知识这一关键问题，提出NavigScene辅助数据集和三个互补的训…
旨在通过模拟类似Google Maps的导航指令，为自动驾驶系统提供超视距 (BVR) 的全局知识，从而提升其在感知、预测、规划和问答任务中的…
提出NavigScene：一个新颖的辅助数据集，将局部多视角传感器输入与全局自然语言导航指引配对，弥补了自动驾驶中局部感知与全局导航之间的鸿沟。

Card 01 研究单位

研究单位

Center for Research in Computer Vision, University of Central Florida (美国佛罗里达大学计算机视觉研究中心)
XPENG Motors (小鹏汽车)

Card 02 论文概述

论文概述

针对当前自动驾驶系统主要依赖局部视觉信息，缺乏人类驾驶员常用的全局导航上下文知识这一关键问题，提出NavigScene辅助数据集和三个互补的训练范式。
旨在通过模拟类似Google Maps的导航指令，为自动驾驶系统提供超视距 (BVR) 的全局知识，从而提升其在感知、预测、规划和问答任务中的综合性能。

Card 03 核心贡献

核心贡献

提出NavigScene：一个新颖的辅助数据集，将局部多视角传感器输入与全局自然语言导航指引配对，弥补了自动驾驶中局部感知与全局导航之间的鸿沟。
设计了三种互补的技术范式以利用NavigScene：导航引导推理 (Navigation-guided Reasoning)、导航引导偏好优化 (NPO) 和导航引导视觉语言-动作 (NVLA) 模型。
在问答任务和端到端驾驶任务上进行了全面的实验，证明了集成全局导航知识能显著提升自动驾驶系统的性能和泛化能力。

Card 04 方法描述

方法描述

导航引导推理：通过导航引导的监督微调 (NSFT)，将导航上下文融入提示，增强视觉语言模型在驾驶相关问答任务中的推理能力。
导航引导偏好优化 (NPO)：一种强化学习方法，通过建立视觉语言模型总结的答案与导航指引之间的偏好关系来改进直接偏好优化 (DPO)，提升模型的BVR推理能力。
导航引导视觉语言-动作 (NVLA) 模型：一个基线架构，通过特征融合将导航指引和视觉语言模型与传统端到端驾驶模型集成，为下游任务创建更鲁棒的表示。

Card 05 数据集与资源

数据集与资源

构建了NavigScene数据集，包含两个子集：NavigScene-nuScenes 和 NavigScene-NAVSIM，源自nuScenes和NAVSIM数据集。
使用Google Maps APIs生成导航视频，并利用GPT-4o等视觉语言模型将其转换为自然语言导航描述。
训练资源等信息在提供的原文HTML片段中未明确说明。

Card 06 评估与结果

评估与结果

评估涵盖了问答任务和端到端驾驶任务（包括感知、预测和规划）。
主要评估指标在提供的原文片段中未详细列出，但实验部分（第5节）包含定量和定性结果分析，并进行了消融研究。
关键实验结果表明，所提出的方法通过集成超视距的导航知识，显著提升了自动驾驶系统在各种任务中的性能。