提出 VLA-AN（Vision-Language-Action for Aerial Navigation），首个专为无人机复杂环境自主导航…

论文详情

VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments

2025-12-17 · 原文 · 翻译 · 2512.15258

提出 VLA-AN（Vision-Language-Action for Aerial Navigation），首个专为无人机复杂环境自主导航设计的轻量化、可机载部署的 VLA 框架解决现有大型空中导航模型的四大局限：数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束实现从自然语言指令到精确无人机控制命令的端到端映射，支持闭环自主导航

5 分钟读完 6 张阅读卡论文未明确列出作者所属机构名称

一眼看懂封面预览

提出 VLA-AN（Vision-Language-Action for Aerial Navigation），首个专为无人机复杂环境自主导航…

提出 VLA-AN（Vision-Language-Action for Aerial Navigation），首个专为无人机复杂环境自主导航…
解决现有大型空中导航模型的四大局限：数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
实现从自然语言指令到精确无人机控制命令的端到端映射，支持闭环自主导航

Card 01 研究单位

研究单位

论文未明确列出作者所属机构名称

Card 02 论文概述

论文概述

提出 VLA-AN（Vision-Language-Action for Aerial Navigation），首个专为无人机复杂环境自主导航设计的轻量化、可机载部署的 VLA 框架
解决现有大型空中导航模型的四大局限：数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
实现从自然语言指令到精确无人机控制命令的端到端映射，支持闭环自主导航

Card 03 核心贡献

核心贡献

构建基于 3D Gaussian Splatting (3D-GS) 的大规模高保真数据集，包含超过 100K 条导航轨迹和 1M+ 多模态样本，有效弥合仿真到现实的视觉域差距
设计渐进式三阶段训练框架：阶段 I 强化场景理解与推理，阶段 II 注入导航专项技能，阶段 III 应用 GRPO-based RFT 强化学习微调优化复杂决策
提出轻量级实时动作模块，结合几何安全校正机制，消除大型生成式策略的推理延迟瓶颈，确保快速、无碰撞、稳定的命令生成
实现系统级机载部署优化，在 NVIDIA Jetson Orin NX 上达到 2–3 Hz 实时推理速率，推理吞吐量提升 8.3×

Card 04 方法描述

方法描述

采用分层架构：视觉编码器（ViT）→ MLP 投影器 → LLM 推理 → 投影器与动作模块联合验证生成动作序列
动作模块基于深度图提取局部障碍物信息，生成可微分排斥梯度力进行实时轨迹调整，避免与大型扩散/流匹配策略相关的高延迟
机载优化包括：Flash-Attention 机制、FFN-归一化算子融合、KV-cache 预加载、CUDA 图调度、ViT 专用 ARM 架构优化及 SIMD 指令加速

Card 05 数据集与资源

数据集与资源

数据集：混合数据集（3D-GS + Mesh + 真实世界数据），涵盖室内外环境、多种光照条件、遮挡模式和动态元素
模型规模：2B/3B/7B 参数（AWQ 量化）
训练资源：未明确说明 GPU/TPU 类型
部署平台：NVIDIA Jetson Orin NX 16 GB（约 100 TOPS 算力，增重约 80 克）

Card 06 评估与结果

评估与结果

基准测试：与 OpenVLA、π₀、Groot N1.5 对比，在 8 种导航场景（物体导航、精确导航、空间定位、长程导航、场景推理等）中平均成功率超过 90%，单任务最高达 98.1%
真实世界实验：在两种无人机平台上验证，成功率与仿真相当，支持长程语言指令分解执行
机载性能：7B/3B/2B 模型解码推理速度分别为 0.110/0.051/0.032 秒每 token，端到端推理从 4100 ms 优化至 494 ms
消融研究：3D-GS 数据在未见数据集上表现接近真实数据（82.9% vs 82.7%），显著优于纯 Mesh 数据（61.8%）；三阶段训练策略对各项任务均有显著提升