一眼看懂
封面预览
提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户
- 提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户
- 该系统集成了Grounding DINO(用于开放词汇目标检测)和MediaPipe(用于人体姿态估计),配合定制的四旋翼无人机和1-DOF夹…
- 旨在解决非专业用户直观控制空中操纵系统的问题,使无人机能够执行取回和交付任务
Card 01
研究单位
研究单位
- Skoltech (俄罗斯莫斯科斯科尔科沃科学技术研究院)
所有作者均隶属于俄罗斯莫斯科的斯科尔科沃科学技术研究院(Skoltech)。
Card 02
论文概述
论文概述
- 提出了一种基于视觉-语言-动作(VLA)模型的自主空中操纵系统,能够解释高级自然语言命令来检索物体并交付给人类用户
- 该系统集成了Grounding DINO(用于开放词汇目标检测)和MediaPipe(用于人体姿态估计),配合定制的四旋翼无人机和1-DOF夹持器
- 旨在解决非专业用户直观控制空中操纵系统的问题,使无人机能够执行取回和交付任务
Card 03
核心贡献
核心贡献
- 首次将VLA应用于空中操纵任务,提出了概念性的视觉-语言-动作模型框架
- 集成Grounding DINO实现开放词汇目标检测,支持零样本检测任意物体无需任务特定训练
- 开发了基于MediaPipe的人体中心交接控制器,提供实时人体姿态和方向估计,实现安全的自然交接
- 采用混合视觉伺服控制(PBVS + IBVS),结合位置和图像特征进行精确抓取和对齐
- 实现**人类感知的A*运动规划**,将人体建模为圆柱形障碍物,保持安全 standoff 距离
Card 04
方法描述
方法描述
- 硬件平台:四旋翼无人机 + 1-DOF平行夹持器(Dynamixel AX-12A电机驱动)+ Intel RealSense RGB-D相机 + OrangePi控制器
- VLA模块:采用类似TinyVLA的轻量级架构,包含6层ViT-Tiny视觉编码器(224×224输入)和4层文本Transformer,2层MLP动作头输出二元夹持器动作(Open/Close)
- 感知流程:Grounding DINO进行开放词汇检测,通过深度图反投影实现3D定位
- 交接控制:MediaPipe Pose Landmarker输出33个骨骼关键点,计算人体方向和胸部高度,视觉伺服控制无人机到达交接位置
- 运动规划:网格化A*算法,人类被建模为带安全裕度的圆柱形障碍物
Card 05
数据集与资源
数据集与资源
- 实验环境:6m × 6m室内实验室,配备Vicon运动捕捉系统
- 数据集:15-20种日常物品(杯子、工具、植物等)随机布置
- 训练资源:VLA推理在地面站RTX GPU上运行,延迟<5ms,无人机端通过ROS2通信
- 模型规模:TinyVLA架构(轻量级,适配嵌入式硬件)
Card 06
评估与结果
评估与结果
- 实验设置:10次试验,随机物品布置,包含自主起飞、空间勘测、目标定位、抓取、交接完整流程
- 关键指标:
- 最大误差:0.164m
- 平均欧几里得误差:0.070m
- 均方根误差(RMSE):0.084m
- 无人机与人类保持约1m安全距离
- VLA验证:10次Unity仿真实验中,模型100%正确预测夹持器动作(Open/Close)
- 结论:感知栈在真实飞行中表现出鲁棒性,VLA抓取验证逻辑在仿真和真实世界视觉数据上均验证成功