MapleGrasp: Mask-guided Feature Pooling for Language-driven Efficient Robotic Grasping

一眼看懂封面预览

论文提出 MapleGrasp，一个用于高效语言驱动机器人抓取的新框架，通过掩码引导的特征池化来提升性能。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

使用 CLIP 模型提取图像和文本特征，通过交叉注意力机制进行融合。
采用两阶段训练：第一阶段独立训练分割分支以预测物体掩码；第二阶段利用预测的掩码对视觉特征进行元素级乘法（池化），然后在池化特征上预测抓取质量、角度和宽度图。
方法设计兼容 4自由度 俯视抓取和 6自由度 定向抓取，通过结合外部抓取提议采样器（如Contact-GraspNet）实现转换。

Card 05 数据集与资源

RefGraspNet（本文贡献）：包含 97K 图像、1225万 条指代文本、88 个独特物体、2.19亿 个抓取姿态及物体掩码。
OCID-VLG：用于基准测试，包含 1763 个高度杂乱的室内桌面场景。
训练资源：使用 RTX 4090 GPU，MapleGrasp 在 32个epoch（约8小时）内收敛，效率高于基线方法。

Card 06 评估与结果

- 在 OCID-VLG 上，Top-1成功率达 88.15%，超越先前最佳方法。

- 在 RefGraspNet 上，对可见和未见物体的抓取准确率分别达 89.86% 和 76.92%。

- 在 LIBERO 模拟中，性能与大得多的 VLA模型（如OpenVLA）相当，且跨任务泛化能力更强。

- 真实机器人实验中，对未见物体在杂乱场景中的抓取成功率达 73%，结合Molmo模型后提升至 73%。