一眼看懂
封面预览
提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航…
- 提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航…
- 解决现有大型空中导航模型的四大局限:数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
- 实现从自然语言指令到精确无人机控制命令的端到端映射,支持闭环自主导航
Card 01
研究单位
研究单位
- 论文未明确列出作者所属机构名称
Card 02
论文概述
论文概述
- 提出 VLA-AN(Vision-Language-Action for Aerial Navigation),首个专为无人机复杂环境自主导航设计的轻量化、可机载部署的 VLA 框架
- 解决现有大型空中导航模型的四大局限:数据域差距、时序导航推理不足、生成式动作策略的安全性问题、以及机载部署约束
- 实现从自然语言指令到精确无人机控制命令的端到端映射,支持闭环自主导航
Card 03
核心贡献
核心贡献
- 构建基于 3D Gaussian Splatting (3D-GS) 的大规模高保真数据集,包含超过 100K 条导航轨迹和 1M+ 多模态样本,有效弥合仿真到现实的视觉域差距
- 设计渐进式三阶段训练框架:阶段 I 强化场景理解与推理,阶段 II 注入导航专项技能,阶段 III 应用 GRPO-based RFT 强化学习微调优化复杂决策
- 提出轻量级实时动作模块,结合几何安全校正机制,消除大型生成式策略的推理延迟瓶颈,确保快速、无碰撞、稳定的命令生成
- 实现系统级机载部署优化,在 NVIDIA Jetson Orin NX 上达到 2–3 Hz 实时推理速率,推理吞吐量提升 8.3×
Card 04
方法描述
方法描述
- 采用分层架构:视觉编码器(ViT)→ MLP 投影器 → LLM 推理 → 投影器与动作模块联合验证生成动作序列
- 动作模块基于深度图提取局部障碍物信息,生成可微分排斥梯度力进行实时轨迹调整,避免与大型扩散/流匹配策略相关的高延迟
- 机载优化包括:Flash-Attention 机制、FFN-归一化算子融合、KV-cache 预加载、CUDA 图调度、ViT 专用 ARM 架构优化及 SIMD 指令加速
Card 05
数据集与资源
数据集与资源
- 数据集:混合数据集(3D-GS + Mesh + 真实世界数据),涵盖室内外环境、多种光照条件、遮挡模式和动态元素
- 模型规模:2B/3B/7B 参数(AWQ 量化)
- 训练资源:未明确说明 GPU/TPU 类型
- 部署平台:NVIDIA Jetson Orin NX 16 GB(约 100 TOPS 算力,增重约 80 克)
Card 06
评估与结果
评估与结果
- 基准测试:与 OpenVLA、π₀、Groot N1.5 对比,在 8 种导航场景(物体导航、精确导航、空间定位、长程导航、场景推理等)中平均成功率超过 90%,单任务最高达 98.1%
- 真实世界实验:在两种无人机平台上验证,成功率与仿真相当,支持长程语言指令分解执行
- 机载性能:7B/3B/2B 模型解码推理速度分别为 0.110/0.051/0.032 秒每 token,端到端推理从 4100 ms 优化至 494 ms
- 消融研究:3D-GS 数据在未见数据集上表现接近真实数据(82.9% vs 82.7%),显著优于纯 Mesh 数据(61.8%);三阶段训练策略对各项任务均有显著提升