返回列表 VLA / Vision-Language-Action 每日论文卡
UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models
论文关注复杂城市环境下的无人机具身视觉跟踪任务,旨在解决现有视觉-语言-动作模型在动态跟踪中的特征冗余和空间几何先验缺失问题。

论文详情

UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

2026-04-02 · 原文 · 翻译 · 2604.02241

论文关注复杂城市环境下的无人机具身视觉跟踪任务,旨在解决现有视觉-语言-动作模型在动态跟踪中的特征冗余和空间几何先验缺失问题。 构建了首个面向城市环境具身无人机跟踪的大规模视觉-语言数据集 UAV-Track,填补了语义级无人机具身跟踪基准的空白。 提出了改进的 VLA 模型 UAV-Track VLA,实现了从高层语义理解到低层连续飞行控制的有效对齐。

5 分钟读完 6 张阅读卡 Beijing Institute of Technology
一眼看懂 封面预览

论文关注复杂城市环境下的无人机具身视觉跟踪任务,旨在解决现有视觉-语言-动作模型在动态跟踪中的特征冗余和空间几何先验缺失问题。

  • 论文关注复杂城市环境下的无人机具身视觉跟踪任务,旨在解决现有视觉-语言-动作模型在动态跟踪中的特征冗余和空间几何先验缺失问题。
  • 构建了首个面向城市环境具身无人机跟踪的大规模视觉-语言数据集 UAV-Track,填补了语义级无人机具身跟踪基准的空白。
  • 提出了改进的 VLA 模型 UAV-Track VLA,实现了从高层语义理解到低层连续飞行控制的有效对齐。
Card 01 研究单位

研究单位

  • Beijing Institute of Technology
  • Institute of Automation, Chinese Academy of Sciences
  • University of Sanya
  • Beijing University of Posts and Telecommunications
  • Hunan University
  • Beihang University
  • Flying Intelligence Team
Card 02 论文概述

论文概述

  • 论文关注复杂城市环境下的无人机具身视觉跟踪任务,旨在解决现有视觉-语言-动作模型在动态跟踪中的特征冗余和空间几何先验缺失问题。
  • 构建了首个面向城市环境具身无人机跟踪的大规模视觉-语言数据集 UAV-Track,填补了语义级无人机具身跟踪基准的空白。
  • 提出了改进的 VLA 模型 UAV-Track VLA,实现了从高层语义理解到低层连续飞行控制的有效对齐。
Card 03 核心贡献

核心贡献

  • 构建了包含超过 890,000 帧、176 个任务和 85 个多样化目标的 UAV-Track 基准数据集,支持自然语言引导和连续运动控制。
  • 提出了一种新颖的 VLA 架构,引入时间压缩网络提取历史运动模式,并设计了并行双分支解码器以解耦空间定位与动作生成。
  • CARLA 仿真器中进行了系统评估,证明了模型在跨模态对齐、连续跟踪能力和零样本泛化方面的优越性,并将推理延迟降低了 33.4%
Card 04 方法描述

方法描述

  • 模型基于开源的 $\pi_{0.5}$ 架构,使用 PaliGemma(结合 SigLIP 视觉塔和 Gemma 大语言模型)作为骨干网络。
  • 引入轻量级时间压缩网络,将历史帧的视觉令牌从 256 压缩至 64,以高效捕获帧间动态并减少计算冗余。
  • 设计了双分支解码器:空间感知辅助定位头用于注入几何先验(预测目标相对位姿),流匹配动作专家用于生成 25 步连续位移序列。
  • 采用端到端联合训练策略,通过混合损失函数同步优化空间定位和连续动作生成。
Card 05 数据集与资源

数据集与资源

  • 数据集:UAV-Track(包含 892,756 帧多模态轨迹数据,覆盖车辆和行人目标)。
  • 仿真环境:CARLA 模拟器(包含多种城镇地图、动态天气和光照条件)。
  • 训练资源:使用 2NVIDIA H100 GPU,全局批次大小为 64,迭代次数为 45,000 次。
Card 06 评估与结果

评估与结果

  • 评估基准:在可见地图和未见地图上对比了 ACTWALL-OSS$\pi_{0}$$\pi_{0.5}$ 等基线模型。
  • 主要指标:Success Rate (SR)Average Tracked Frames (ATF)
  • 关键结果:在长距离行人跟踪任务中,模型实现了 61.76% 的成功率和 269.65 的平均跟踪帧数,显著优于现有方法。
  • 效率提升:单步推理延迟降至 0.0571s,相比原始 $\pi_{0.5}$ 模型效率提升 33.4%,满足实时控制需求。