一眼看懂
封面预览
论文提出 MapleGrasp,一个用于高效语言驱动机器人抓取的新框架,通过掩码引导的特征池化来提升性能。
- 论文提出 MapleGrasp,一个用于高效语言驱动机器人抓取的新框架,通过掩码引导的特征池化来提升性能。
- 旨在解决机器人根据自然语言指令在杂乱环境中抓取未知物体的挑战,提高抓取检测的效率和准确性。
- 同时发布了大规模数据集 RefGraspNet,以推动该领域的研究。
Card 01
研究单位
研究单位
- 纽约大学坦顿工程学院 (New York University Tandon School of Engineering)
Card 02
论文概述
论文概述
- 论文提出 MapleGrasp,一个用于高效语言驱动机器人抓取的新框架,通过掩码引导的特征池化来提升性能。
- 旨在解决机器人根据自然语言指令在杂乱环境中抓取未知物体的挑战,提高抓取检测的效率和准确性。
- 同时发布了大规模数据集 RefGraspNet,以推动该领域的研究。
Card 03
核心贡献
核心贡献
- 提出一种新颖的两阶段训练架构:第一阶段预测文本指代的物体掩码,第二阶段利用掩码池化特征进行抓取细化。
- 实证证明,将抓取预测限制在掩码池化区域能实现更快、更高效的训练,并在 OCID-VLG 基准上准确率提升 7%。
- 引入 RefGraspNet 数据集,包含超过 2.19亿 个抓取姿态,规模是现有同类数据集的 8倍,大幅增强了模型泛化能力。
- 在物理模拟环境和真实机器人(Franka机械臂)上进行了广泛验证,在未见物体场景中成功率比竞争基线高出 11%。
Card 04
方法描述
方法描述
- 使用 CLIP 模型提取图像和文本特征,通过交叉注意力机制进行融合。
- 采用两阶段训练:第一阶段独立训练分割分支以预测物体掩码;第二阶段利用预测的掩码对视觉特征进行元素级乘法(池化),然后在池化特征上预测抓取质量、角度和宽度图。
- 方法设计兼容 4自由度 俯视抓取和 6自由度 定向抓取,通过结合外部抓取提议采样器(如Contact-GraspNet)实现转换。
Card 05
数据集与资源
数据集与资源
- RefGraspNet(本文贡献):包含 97K 图像、1225万 条指代文本、88 个独特物体、2.19亿 个抓取姿态及物体掩码。
- OCID-VLG:用于基准测试,包含 1763 个高度杂乱的室内桌面场景。
- 训练资源:使用 RTX 4090 GPU,MapleGrasp 在 32个epoch(约8小时)内收敛,效率高于基线方法。
Card 06
评估与结果
评估与结果
- 评估基准:OCID-VLG(4-DoF)、RefGraspNet(6-DoF)、LIBERO 物理模拟环境、真实机器人实验。
- 主要指标:抓取成功率(Top-1 和 Top-5 预测),其中4-DoF要求旋转角度误差小于30°、IoU大于0.25。
- 关键结果:
- 在 OCID-VLG 上,Top-1成功率达 88.15%,超越先前最佳方法。
- 在 RefGraspNet 上,对可见和未见物体的抓取准确率分别达 89.86% 和 76.92%。
- 在 LIBERO 模拟中,性能与大得多的 VLA模型(如OpenVLA)相当,且跨任务泛化能力更强。
- 真实机器人实验中,对未见物体在杂乱场景中的抓取成功率达 73%,结合Molmo模型后提升至 73%。