返回列表 VLA / Vision-Language-Action 每日论文卡
DroneVLA: VLA based Aerial Manipulation
提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户

论文详情

DroneVLA: VLA based Aerial Manipulation

2026-01-20 · 原文 · 翻译 · 2601.13809

提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户 该系统集成了Grounding DINO(用于开放词汇目标检测)和MediaPipe(用于人体姿态估计),配合定制的四旋翼无人机和1-DOF夹持器 旨在解决非专业用户直观控制空中操纵系统的问题,使无人机能够执行取回和交付任务

5 分钟读完 6 张阅读卡 Skoltech (俄罗斯莫斯科斯科尔科沃科学技术研究院)
一眼看懂 封面预览

提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户

  • 提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户
  • 该系统集成了Grounding DINO(用于开放词汇目标检测)和MediaPipe(用于人体姿态估计),配合定制的四旋翼无人机和1-DOF夹…
  • 旨在解决非专业用户直观控制空中操纵系统的问题,使无人机能够执行取回和交付任务
Card 01 研究单位

研究单位

  • Skoltech (俄罗斯莫斯科斯科尔科沃科学技术研究院)

所有作者均隶属于俄罗斯莫斯科的斯科尔科沃科学技术研究院(Skoltech)。

Card 02 论文概述

论文概述

  • 提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户
  • 该系统集成了Grounding DINO(用于开放词汇目标检测)和MediaPipe(用于人体姿态估计),配合定制的四旋翼无人机和1-DOF夹持器
  • 旨在解决非专业用户直观控制空中操纵系统的问题,使无人机能够执行取回和交付任务
Card 03 核心贡献

核心贡献

  • 首次将VLA应用于空中操纵任务,提出了概念性的视觉-语言-动作模型框架
  • 集成Grounding DINO实现开放词汇目标检测,支持零样本检测任意物体无需任务特定训练
  • 开发了基于MediaPipe的人体中心交接控制器,提供实时人体姿态和方向估计,实现安全的自然交接
  • 采用混合视觉伺服控制(PBVS + IBVS),结合位置和图像特征进行精确抓取和对齐
  • 实现**人类感知的A*运动规划**,将人体建模为圆柱形障碍物,保持安全 standoff 距离
Card 04 方法描述

方法描述

  • 硬件平台:四旋翼无人机 + 1-DOF平行夹持器(Dynamixel AX-12A电机驱动)+ Intel RealSense RGB-D相机 + OrangePi控制器
  • VLA模块:采用类似TinyVLA的轻量级架构,包含6层ViT-Tiny视觉编码器(224×224输入)和4层文本Transformer,2层MLP动作头输出二元夹持器动作(Open/Close)
  • 感知流程:Grounding DINO进行开放词汇检测,通过深度图反投影实现3D定位
  • 交接控制:MediaPipe Pose Landmarker输出33个骨骼关键点,计算人体方向和胸部高度,视觉伺服控制无人机到达交接位置
  • 运动规划:网格化A*算法,人类被建模为带安全裕度的圆柱形障碍物
Card 05 数据集与资源

数据集与资源

  • 实验环境:6m × 6m室内实验室,配备Vicon运动捕捉系统
  • 数据集:15-20种日常物品(杯子、工具、植物等)随机布置
  • 训练资源:VLA推理在地面站RTX GPU上运行,延迟<5ms,无人机端通过ROS2通信
  • 模型规模:TinyVLA架构(轻量级,适配嵌入式硬件)
Card 06 评估与结果

评估与结果

  • 实验设置:10次试验,随机物品布置,包含自主起飞、空间勘测、目标定位、抓取、交接完整流程
  • 关键指标

- 最大误差:0.164m

- 平均欧几里得误差:0.070m

- 均方根误差(RMSE):0.084m

- 无人机与人类保持约1m安全距离

  • VLA验证:10次Unity仿真实验中,模型100%正确预测夹持器动作(Open/Close)
  • 结论:感知栈在真实飞行中表现出鲁棒性,VLA抓取验证逻辑在仿真和真实世界视觉数据上均验证成功