系统综述了无人机视觉语言导航（UAV-VLN）领域，从任务定义到前沿技术进展，旨在解决无人机理解高级人类指令并在复杂3D环境中执行长期任务的关…

论文详情

Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap

2026-04-15 · 原文 · 翻译 · 2604.13654

系统综述了无人机视觉语言导航（UAV-VLN）领域，从任务定义到前沿技术进展，旨在解决无人机理解高级人类指令并在复杂3D环境中执行长期任务的关键挑战。建立了完整的方法分类体系，追踪技术从早期模块化方法到当前由大型基础模型驱动的智能系统的演进。深入分析了阻碍真实世界部署的核心挑战，包括仿真与现实差距、感知鲁棒性、推理效率与安全性问题。

5 分钟读完 6 张阅读卡道通机器人（深圳，中国）：H. Chen、S. Feng、S. Cheng、R. Ren、X. Wan…

一眼看懂封面预览

系统综述了无人机视觉语言导航（UAV-VLN）领域，从任务定义到前沿技术进展，旨在解决无人机理解高级人类指令并在复杂3D环境中执行长期任务的关…

系统综述了无人机视觉语言导航（UAV-VLN）领域，从任务定义到前沿技术进展，旨在解决无人机理解高级人类指令并在复杂3D环境中执行长期任务的关…
建立了完整的方法分类体系，追踪技术从早期模块化方法到当前由大型基础模型驱动的智能系统的演进。
深入分析了阻碍真实世界部署的核心挑战，包括仿真与现实差距、感知鲁棒性、推理效率与安全性问题。

Card 01 研究单位

研究单位

道通机器人（深圳，中国）：H. Chen、S. Feng、S. Cheng、R. Ren、X. Wang、K. Wang 和 J. Pei
南京大学智能软件工程学院（南京，中国）：J. Zheng
威斯康星大学麦迪逊分校计算机、数据与信息科学学院（麦迪逊，美国）：S. Yang
南方科技大学（深圳，中国）：T. Zeng
香港大学（香港特别行政区，中国）：H. Guo
北京大学软件与微电子学院（北京，中国）：S. Yuan

Card 02 论文概述

论文概述

系统综述了无人机视觉语言导航（UAV-VLN）领域，从任务定义到前沿技术进展，旨在解决无人机理解高级人类指令并在复杂3D环境中执行长期任务的关键挑战。
建立了完整的方法分类体系，追踪技术从早期模块化方法到当前由大型基础模型驱动的智能系统的演进。
深入分析了阻碍真实世界部署的核心挑战，包括仿真与现实差距、感知鲁棒性、推理效率与安全性问题。

Card 03 核心贡献

核心贡献

提出并建立了清晰的方法分类体系，将UAV-VLN方法分为模块化早期学习、长期时空理解架构、基础模型驱动智能系统三大范式，并细化为多个子类。
对核心技术挑战进行了系统性综合分析，涵盖仿真到真实世界的迁移差距、动态环境下的鲁棒感知与推理、以及大型模型在受限硬件上的高效部署。
提出了面向未来的研究路线图，指引多无人机集群协作、空地协同机器人等前沿方向的发展。

Card 04 方法描述

方法描述

方法演进遵循三大范式：从分解感知、规划与控制的经典模块化流程，到使用CNN/RNN进行跨模态融合的模块化深度学习架构，再到直接学习从传感器到动作映射的端到端策略。
现代方法重点融合视觉-语言模型（VLMs）作为认知核心进行高级规划，使用视觉-语言-动作（VLA）模型作为端到端控制策略，并将生成式世界模型与VLA架构结合以实现物理接地推理。
关键技术包括用于长期记忆的时间Transformer、构建可查询地图的视觉语言地图、认知地图与场景图、以及分层混合智能体系统。

Card 05 数据集与资源

数据集与资源

使用的高保真仿真环境包括 AirSim、CARLA、Gazebo、FlightGoggles、UE4、NVIDIA Isaac Sim 等平台。
主要基准数据集包括 AerialVLN、CityNav、UAV-Navigate、Agricultural-VLN、SearchRescue-VLN 等，覆盖城市、农业、搜索救援等多种场景。
评估协议采用成功率（SR）、路径长度加权成功率（SPL）等标准指标，并延伸至对分解具身技能的细粒度评估。

Card 06 评估与结果

评估与结果

评估在多样化模拟环境中进行，涵盖城市尺度的户外导航和室内复杂场景。
主要评估指标包括 成功率（SR）、路径长度加权成功率（SPL），并扩展至任务完成效率、技能分解性能等更细致的评估。
分析指出，仿真中的高性能与真实世界部署之间存在显著差距，主要源于视觉域迁移、动力学失配及环境复杂度差异，这是当前领域面临的首要瓶颈。