一眼看懂
封面预览
论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。
- 论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。
- 核心目标是实现 UAV模仿学习,使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
- 解决了语言引导的无人机低层控制这一关键但未被充分探索的问题,并提供了首个真实世界基准。
Card 01
研究单位
研究单位
- 北京航空航天大学人工智能研究院
- 新加坡国立大学
- 香港中文大学 MMLab
- 北京航空航天大学杭州国际创新研究院
Card 02
论文概述
论文概述
- 论文提出了 Flying-on-a-Word (Flow) 任务,专注于语言引导下的无人机细粒度、短程轨迹控制,区别于传统长程导航。
- 核心目标是实现 UAV模仿学习,使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
- 解决了语言引导的无人机低层控制这一关键但未被充分探索的问题,并提供了首个真实世界基准。
Card 03
核心贡献
核心贡献
- 定义了 Flow 任务范式,强调运动意图理解与空间上下文接地两大核心能力。
- 构建了首个大规模、真实的语言-视觉-动作多模态数据集 UAV-Flow,包含30,692条轨迹,支持无Sim-to-Real差距的直接部署。
- 提出了 地面-无人机协同部署框架,通过前瞻机制解决实时控制中的感知-动作延迟问题。
- 建立了包含仿真数据集 UAV-Flow-Sim 与闭环评估指标的完整基准套件,用于系统性模型评测。
- 首次在开放环境中成功部署了 VLA 模型 用于语言引导的无人机控制,验证了方法的实用性。
Card 04
方法描述
方法描述
- 采用 模仿学习 框架,将语言指令、无人机状态和第一视角视觉观测映射到低层控制动作。
- 数据收集采用专业飞行员操作,记录同步的车载视频与 6-DoF 状态轨迹,并进行时间戳对齐与局部坐标系转换。
- 语言指令标注包含固定词汇命令集,并利用 LLM 扩展为开放词汇命令集以增强多样性。
- 部署框架采用 地面-无人机协作 策略,无人机通过 RTSP 和 MAVROS 传输数据至地面站进行模型推理,并返回控制命令。
Card 05
数据集与资源
数据集与资源
- UAV-Flow 真实世界数据集:包含 30,692 条飞行轨迹,涵盖8种主要运动类型,采集自三个大学校园,总面积 5.02 km²。
- UAV-Flow-Sim 仿真数据集:包含 10,109 条轨迹,用于模型验证与分析。
- 使用 DJI Mavic 3T RTK 等商用平台进行数据采集,配备 4K 摄像头 与 RTK GPS 模块。
- 模型训练使用了 RTX 4090 和 A100 GPU,具体配置见附录。
Card 06
评估与结果
评估与结果
- 在 UAV-Flow-Sim 闭环仿真环境中对 VLN 与 VLA 两类模型进行了基准测试。
- 主要评估指标为 成功率 与 归一化动态时间规整。
- 实验结果表明,VLA 模型 (如 OpenVLA-UAV, Pi-0-UAV) 在细粒度控制任务上显著优于传统 VLN 模型,展现出更强的视觉理解与运动执行能力。
- 成功在真实无人机上部署了 Pi-0-UAV 模型,并展示了稳定、延迟可控的连续飞行控制效果。