提出了 AerialVLA，这是一个极简的端到端视觉-语言-动作（VLA）框架，旨在实现无人机（UAV）的自主导航。

论文详情

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

2026-03-15 · 原文 · 翻译 · 2603.14363

提出了 AerialVLA，这是一个极简的端到端视觉-语言-动作（VLA）框架，旨在实现无人机（UAV）的自主导航。旨在解决现有无人机视觉-语言导航方法对密集的先知指导和外部物体检测器的依赖问题，从而实现真正的自主性。该框架将原始视觉观察和模糊的语言指令直接映射为连续的物理控制信号，无需复杂的分层模块。

4 分钟读完 6 张阅读卡 University of Electronic Science and Technology of…

一眼看懂封面预览

提出了 AerialVLA，这是一个极简的端到端视觉-语言-动作（VLA）框架，旨在实现无人机（UAV）的自主导航。

提出了 AerialVLA，这是一个极简的端到端视觉-语言-动作（VLA）框架，旨在实现无人机（UAV）的自主导航。
旨在解决现有无人机视觉-语言导航方法对密集的先知指导和外部物体检测器的依赖问题，从而实现真正的自主性。
该框架将原始视觉观察和模糊的语言指令直接映射为连续的物理控制信号，无需复杂的分层模块。

Card 01 研究单位

研究单位

University of Electronic Science and Technology of China (Shenzhen Institute for Advanced Study)
Hofstra University (Department of Computer Science)

Card 02 论文概述

论文概述

提出了 AerialVLA，这是一个极简的端到端视觉-语言-动作（VLA）框架，旨在实现无人机（UAV）的自主导航。
旨在解决现有无人机视觉-语言导航方法对密集的先知指导和外部物体检测器的依赖问题，从而实现真正的自主性。
该框架将原始视觉观察和模糊的语言指令直接映射为连续的物理控制信号，无需复杂的分层模块。

Card 03 核心贡献

核心贡献

极简双视角感知： 融合前视和下视图像，减少了视觉冗余，同时保留了导航和目标定位的关键线索。
模糊方向提示： 仅使用机载传感器（IMU/GPS）导出的粗粒度方向提示，消除了对逐步先知指导的依赖，迫使智能体进行主动的空间推理。
基于数值标记化的高自由度控制： 利用大语言模型（LLM）预训练的数值推理能力，将连续的 3-DoF 动作空间标记化，实现了无需外部检测器的内在着陆策略。
几何一致性监督： 提出了一种数据过滤策略，用于解决模糊提示下专家示范数据中的因果歧义问题。

Card 04 方法描述

方法描述

基于 OpenVLA-7B 主干和 Llama 2 语言模型构建，采用混合视觉编码器（SigLIP 和 DINOv2）。
视觉输入处理采用垂直拼接的前视和下视图像，调整为 $224 \times 224$ 分辨率，以适配消费级无人机硬件并降低推理延迟。
动作输出通过自回归预测整数标记（映射到现有 LLM 词汇表中的数字 0-98），生成空间偏移量用于速度控制，并包含着陆信号。

Card 05 数据集与资源

数据集与资源

数据集：TravelUAV 基准测试，包含约 12k 条人类驾驶轨迹。
模型规模：基于 OpenVLA-7B，使用 LoRA 进行微调，可训练参数约占总参数的 2.98%。
训练资源：在 4 张 RTX 4090 GPU（24GB）上训练，训练时长约 35 小时。

Card 06 评估与结果

评估与结果

在 TravelUAV 基准测试的可见、未见物体和未见地图划分上进行评估。
主要评估指标包括导航误差（NE）、成功率（SR）、先知成功率（OSR）和路径长度加权成功率（SPL）。
在可见环境中达到了 47.96% SR 的最先进性能。
在未见地图划分中表现卓越，达到了 37.58% SR，其成功率约为最强基线 LongFly（11.27%）的三倍。