DroneVLA: VLA based Aerial Manipulation - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出了一种基于视觉-语言-动作（VLA）模型的自主空中操纵系统，能够解释高级自然语言命令来检索物体并交付给人类用户

Card 01 研究单位

研究单位

所有作者均隶属于俄罗斯莫斯科的斯科尔科沃科学技术研究院（Skoltech）。

Card 02 论文概述

提出了一种基于视觉-语言-动作（VLA）模型的自主空中操纵系统，能够解释高级自然语言命令来检索物体并交付给人类用户
该系统集成了Grounding DINO（用于开放词汇目标检测）和MediaPipe（用于人体姿态估计），配合定制的四旋翼无人机和1-DOF夹持器
旨在解决非专业用户直观控制空中操纵系统的问题，使无人机能够执行取回和交付任务

Card 03 核心贡献

Card 04 方法描述

硬件平台：四旋翼无人机 + 1-DOF平行夹持器（Dynamixel AX-12A电机驱动）+ Intel RealSense RGB-D相机 + OrangePi控制器
VLA模块：采用类似TinyVLA的轻量级架构，包含6层ViT-Tiny视觉编码器（224×224输入）和4层文本Transformer，2层MLP动作头输出二元夹持器动作（Open/Close）
感知流程：Grounding DINO进行开放词汇检测，通过深度图反投影实现3D定位
交接控制：MediaPipe Pose Landmarker输出33个骨骼关键点，计算人体方向和胸部高度，视觉伺服控制无人机到达交接位置
运动规划：网格化A*算法，人类被建模为带安全裕度的圆柱形障碍物

Card 05 数据集与资源

Card 06 评估与结果

- 最大误差：0.164m

- 平均欧几里得误差：0.070m

- 均方根误差（RMSE）：0.084m

- 无人机与人类保持约1m安全距离