返回列表 VLA / Vision-Language-Action 每日论文卡

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

论文详情

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

2025-05-21 · 原文 · 翻译 · 2505.15725

论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。 核心目标是实现 UAV模仿学习,使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。 解决了语言引导的无人机低层控制这一关键但未被充分探索的问题,并提供了首个真实世界基准。

4 分钟读完 6 张阅读卡 北京航空航天大学人工智能研究院
一眼看懂 封面预览

论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。

  • 论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。
  • 核心目标是实现 UAV模仿学习,使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
  • 解决了语言引导的无人机低层控制这一关键但未被充分探索的问题,并提供了首个真实世界基准。
Card 01 研究单位

研究单位

  • 北京航空航天大学人工智能研究院
  • 新加坡国立大学
  • 香港中文大学 MMLab
  • 北京航空航天大学杭州国际创新研究院
Card 02 论文概述

论文概述

  • 论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。
  • 核心目标是实现 UAV模仿学习,使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
  • 解决了语言引导的无人机低层控制这一关键但未被充分探索的问题,并提供了首个真实世界基准。
Card 03 核心贡献

核心贡献

  • 定义了 Flow 任务范式,强调运动意图理解与空间上下文接地两大核心能力。
  • 构建了首个大规模、真实的语言-视觉-动作多模态数据集 UAV-Flow,包含30,692条轨迹,支持无Sim-to-Real差距的直接部署。
  • 提出了 地面-无人机协同部署框架,通过前瞻机制解决实时控制中的感知-动作延迟问题。
  • 建立了包含仿真数据集 UAV-Flow-Sim 与闭环评估指标的完整基准套件,用于系统性模型评测。
  • 首次在开放环境中成功部署了 VLA 模型 用于语言引导的无人机控制,验证了方法的实用性。
Card 04 方法描述

方法描述

  • 采用 模仿学习 框架,将语言指令、无人机状态和第一视角视觉观测映射到低层控制动作。
  • 数据收集采用专业飞行员操作,记录同步的车载视频与 6-DoF 状态轨迹,并进行时间戳对齐与局部坐标系转换。
  • 语言指令标注包含固定词汇命令集,并利用 LLM 扩展为开放词汇命令集以增强多样性。
  • 部署框架采用 地面-无人机协作 策略,无人机通过 RTSP 和 MAVROS 传输数据至地面站进行模型推理,并返回控制命令。
Card 05 数据集与资源

数据集与资源

  • UAV-Flow 真实世界数据集:包含 30,692 条飞行轨迹,涵盖8种主要运动类型,采集自三个大学校园,总面积 5.02 km²
  • UAV-Flow-Sim 仿真数据集:包含 10,109 条轨迹,用于模型验证与分析。
  • 使用 DJI Mavic 3T RTK 等商用平台进行数据采集,配备 4K 摄像头RTK GPS 模块。
  • 模型训练使用了 RTX 4090A100 GPU,具体配置见附录。
Card 06 评估与结果

评估与结果

  • UAV-Flow-Sim 闭环仿真环境中对 VLNVLA 两类模型进行了基准测试。
  • 主要评估指标为 成功率归一化动态时间规整
  • 实验结果表明,VLA 模型 (如 OpenVLA-UAV, Pi-0-UAV) 在细粒度控制任务上显著优于传统 VLN 模型,展现出更强的视觉理解与运动执行能力。
  • 成功在真实无人机上部署了 Pi-0-UAV 模型,并展示了稳定、延迟可控的连续飞行控制效果。