返回列表 VLA / Vision-Language-Action 每日论文卡
VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments
提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航…

论文详情

VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments

2025-12-17 · 原文 · 翻译 · 2512.15258

提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航设计的轻量化、可机载部署的 VLA 框架 解决现有大型空中导航模型的四大局限:数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束 实现从自然语言指令到精确无人机控制命令的端到端映射,支持闭环自主导航

5 分钟读完 6 张阅读卡 论文未明确列出作者所属机构名称
一眼看懂 封面预览

提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航…

  • 提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航…
  • 解决现有大型空中导航模型的四大局限:数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
  • 实现从自然语言指令到精确无人机控制命令的端到端映射,支持闭环自主导航
Card 01 研究单位

研究单位

  • 论文未明确列出作者所属机构名称
Card 02 论文概述

论文概述

  • 提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航设计的轻量化、可机载部署的 VLA 框架
  • 解决现有大型空中导航模型的四大局限:数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
  • 实现从自然语言指令到精确无人机控制命令的端到端映射,支持闭环自主导航
Card 03 核心贡献

核心贡献

  • 构建基于 3D Gaussian Splatting (3D-GS) 的大规模高保真数据集,包含超过 100K 条导航轨迹和 1M+ 多模态样本,有效弥合仿真到现实的视觉域差距
  • 设计渐进式三阶段训练框架:阶段 I 强化场景理解与推理,阶段 II 注入导航专项技能,阶段 III 应用 GRPO-based RFT 强化学习微调优化复杂决策
  • 提出轻量级实时动作模块,结合几何安全校正机制,消除大型生成式策略的推理延迟瓶颈,确保快速、无碰撞、稳定的命令生成
  • 实现系统级机载部署优化,在 NVIDIA Jetson Orin NX 上达到 2–3 Hz 实时推理速率,推理吞吐量提升 8.3×
Card 04 方法描述

方法描述

  • 采用分层架构:视觉编码器(ViT)→ MLP 投影器 → LLM 推理 → 投影器与动作模块联合验证生成动作序列
  • 动作模块基于深度图提取局部障碍物信息,生成可微分排斥梯度力进行实时轨迹调整,避免与大型扩散/流匹配策略相关的高延迟
  • 机载优化包括:Flash-Attention 机制、FFN-归一化算子融合、KV-cache 预加载、CUDA 图调度、ViT 专用 ARM 架构优化及 SIMD 指令加速
Card 05 数据集与资源

数据集与资源

  • 数据集:混合数据集(3D-GS + Mesh + 真实世界数据),涵盖室内外环境、多种光照条件、遮挡模式和动态元素
  • 模型规模:2B/3B/7B 参数(AWQ 量化)
  • 训练资源:未明确说明 GPU/TPU 类型
  • 部署平台NVIDIA Jetson Orin NX 16 GB(约 100 TOPS 算力,增重约 80 克)
Card 06 评估与结果

评估与结果

  • 基准测试:与 OpenVLAπ₀Groot N1.5 对比,在 8 种导航场景(物体导航、精确导航、空间定位、长程导航、场景推理等)中平均成功率超过 90%,单任务最高达 98.1%
  • 真实世界实验:在两种无人机平台上验证,成功率与仿真相当,支持长程语言指令分解执行
  • 机载性能:7B/3B/2B 模型解码推理速度分别为 0.110/0.051/0.032 秒每 token,端到端推理从 4100 ms 优化至 494 ms
  • 消融研究:3D-GS 数据在未见数据集上表现接近真实数据(82.9% vs 82.7%),显著优于纯 Mesh 数据(61.8%);三阶段训练策略对各项任务均有显著提升