返回列表 VLA / Vision-Language-Action 每日论文卡
VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation
论文旨在解决当前视觉-语言-动作模型主要依赖平行两指夹持器,在面对擦拭玻璃、开启无把手抽屉等复杂现实任务时存在固有局限性的问题。

论文详情

VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation

2025-11-26 · 原文 · 翻译 · 2511.21557

论文旨在解决当前视觉-语言-动作模型主要依赖平行两指夹持器,在面对擦拭玻璃、开启无把手抽屉等复杂现实任务时存在固有局限性的问题。 研究提出一种低成本的集成硬件设计,将机械两指夹持器与真空吸盘单元结合,实现单一末端执行器的双模式操作。 通过在 DexVLA 和 π₀ 两个先进VLA框架上进行验证,证明了该混合末端执行器能够成功完成传统夹持器无法执行的多种复杂家庭任务。

5 分钟读完 6 张阅读卡 香港中文大学
一眼看懂 封面预览

论文旨在解决当前视觉-语言-动作模型主要依赖平行两指夹持器,在面对擦拭玻璃、开启无把手抽屉等复杂现实任务时存在固有局限性的问题。

  • 论文旨在解决当前视觉-语言-动作模型主要依赖平行两指夹持器,在面对擦拭玻璃、开启无把手抽屉等复杂现实任务时存在固有局限性的问题。
  • 研究提出一种低成本的集成硬件设计,将机械两指夹持器与真空吸盘单元结合,实现单一末端执行器的双模式操作。
  • 通过在 DexVLA 和 π₀ 两个先进VLA框架上进行验证,证明了该混合末端执行器能够成功完成传统夹持器无法执行的多种复杂家庭任务。
Card 01 研究单位

研究单位

  • 香港中文大学
  • 上海交通大学
  • 中国科学院自动化研究所
  • 滴滴全球
Card 02 论文概述

论文概述

  • 论文旨在解决当前视觉-语言-动作模型主要依赖平行两指夹持器,在面对擦拭玻璃、开启无把手抽屉等复杂现实任务时存在固有局限性的问题。
  • 研究提出一种低成本的集成硬件设计,将机械两指夹持器与真空吸盘单元结合,实现单一末端执行器的双模式操作。
  • 通过在 DexVLAπ₀ 两个先进VLA框架上进行验证,证明了该混合末端执行器能够成功完成传统夹持器无法执行的多种复杂家庭任务。
Card 03 核心贡献

核心贡献

  • 开发了一种新颖、低成本的集成吸盘与抓取功能的混合末端执行器,能够执行开启无把手抽屉等挑战性任务。
  • 建立并验证了一套完整的数据采集与控制系统,设计了四个不同的实验任务(清理桌面、开启无把手塑料盒、开启无把手抽屉、开启快递纸箱)。
  • 成功将混合末端执行器集成到 DexVLAπ₀ 两个开源VLA框架中,实现了对吸盘和抓取动作的端到端控制。
  • 实验证明,提出的 VacuumVLA 系统在多个传统末端执行器无法完成的任务上取得了合理的成功率。
Card 04 方法描述

方法描述

  • 硬件设计基于 AgileX Robotics Piper 两指夹持器基座,集成了微型真空泵、电磁阀、Arduino Uno R3微控制器和硅胶吸盘等组件,通过USB继电器和脚踏开关进行控制。
  • 定义了三种基本动作原语:吸附抓取移动,这些原语可以组合完成复杂的家庭任务。
  • 提出了 VacuumVLA 模型,通过在输出动作中增加两个维度来分别表示左右臂的吸盘状态,解决了将二元吸盘状态作为输入时可能导致的“捷径学习”问题。
  • 模型基于 DexVLAπ₀ 框架实现,分别采用基于扩散和流匹配的动作专家模块进行动作生成。
Card 05 数据集与资源

数据集与资源

  • 使用自定义数据集,通过遥操作方式收集,四个任务的数据轨迹数量分别为:任务一200条,任务二、三、四各100条。
  • VacuumVLA (DexVLA) 版本使用预训练的 scale_dp_l (400M参数) 动作专家模型。
  • VacuumVLA (π₀) 版本基于 PaliGemma 视觉语言模型进行初始化。
  • 训练资源:DexVLA 版本在四台 A100 服务器上训练两天;π₀ 版本训练四天至80,000步。
Card 06 评估与结果

评估与结果

  • 评估环境为双臂6轴机械臂操作平台,配备顶部固定相机和两个腕部相机。
  • 主要评估指标为四个长周期任务的成功率(每个任务测试15次),只有当任务内所有基本动作都成功完成时才算成功。
  • 实验结果表明,使用传统夹持器的基线模型在所有任务上成功率为0%。
  • VacuumVLA (DexVLA) 在任务一至四的成功率分别为:73.3%, 80.0%, 53.3%, 33.3%
  • VacuumVLA (π₀) 在任务一至四的成功率分别为:53.3%, 66.67%, 60.0%, 53.3%
  • 硬件功能测试验证了吸盘可以稳定抓取500克物体,并测试了其在玻璃、皮革钱包和纸箱等不同材料上的吸附压力。