一眼看懂
封面预览
提出 ClutterDexGrasp,一个两阶段教师-学生框架,用于在杂乱场景中进行闭合回路的目标导向灵巧抓取
- 提出 ClutterDexGrasp,一个两阶段教师-学生框架,用于在杂乱场景中进行闭合回路的目标导向灵巧抓取
- 解决杂乱场景中灵巧抓取的挑战:多样化的物体几何形状、遮挡、以及潜在的碰撞问题
- 这是 首个零样本 sim-to-real(从仿真到现实)的闭合回路目标导向灵巧抓取系统,无需任何真实世界演示即可部署
Card 01
研究单位
研究单位
- CFCS, School of Computer Science, Peking University(北京大学计算机学院)
- PKU-AgiBot Lab(北京大学AgiBot实验室)
- PKU-PsiBot Lab(北京大学PsiBot实验室)
- Princeton University(普林斯顿大学)
- 作者:Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong(通讯作者)
Card 02
论文概述
论文概述
- 提出 ClutterDexGrasp,一个两阶段教师-学生框架,用于在杂乱场景中进行闭合回路的目标导向灵巧抓取
- 解决杂乱场景中灵巧抓取的挑战:多样化的物体几何形状、遮挡、以及潜在的碰撞问题
- 这是 首个零样本 sim-to-real(从仿真到现实)的闭合回路目标导向灵巧抓取系统,无需任何真实世界演示即可部署
Card 03
核心贡献
核心贡献
- 两阶段教师-学生框架:教师策略在仿真中通过强化学习训练,学生策略通过模仿学习从教师演示中蒸馏
- 几何与空间(GS)表示:提出针对杂乱场景的几何-空间嵌入表示,计算灵巧手手指链接与目标/非目标物体之间的距离向量
- 两阶段杂乱密度课程学习:先学习单物体抓取,再在杂乱场景中微调,解决直接训练无法收敛的问题
- 交互安全课程:逐步收紧力阈值,确保抓取行为安全、温和,适合真实机器人部署
- 零样本 sim-to-real 迁移:使用 DP3(3D Diffusion Policy) 处理点云观测,结合点云对齐和系统识别技术实现迁移
Card 04
方法描述
方法描述
- 教师策略:在仿真中使用 PPO 训练,基于特权状态信息(完整几何和空间信息)
- GS表示:对每个手指链接,计算到目标物体(d_pos)和非目标物体(d_neg)的3D距离向量
- 密集奖励函数:r = (c₁·r_grasp + c₂·r_pos)·(1-r_neg),鼓励接近目标并避免碰撞
- 杂乱密度课程:第一阶段学习单物体抓取,第二阶段在杂乱场景中学习接触丰富的策略性抓取
- 安全课程:当成功率超过阈值时,逐步收紧力阈值,惩罚过度用力行为
- 学生策略:使用 DP3 骨干网络,处理部分点云观测,通过多层级杂乱密度演示数据集训练
Card 05
数据集与资源
数据集与资源
- 训练数据集:GraspNet-1Billion 的 88 个训练物体
- 测试数据集:Omni6DPose 的 2029 个未见物体
- 仿真环境:Isaac Gym(GPU加速的物理仿真)
- 场景密度:稀疏(4-8物体)、密集(9-15物体)、超密集(16-25物体)
- 硬件平台:7-DoF 机械臂 + 12-DoF 灵巧手
- 策略运行频率:15 Hz
Card 06
评估与结果
评估与结果
- 仿真评估:
- 教师策略在未见物体/布局上:稀疏92.6%、密集86.6%、超密集81.6%
- 学生策略:稀疏90.8%、密集82.1%、超密集74.2%
- 学生相比教师平均成功率下降<5%
- 真实世界评估:
- 167次抓取尝试,总体成功率83.9%
- 40秒内达到80%成功率
- AUC(曲线下面积):0.617
- 在各种形状、尺寸、材质的41个物体上表现稳健
- 消融实验:
- 无杂乱密度课程直接训练:成功率0%(完全失败)
- 无安全课程:力值80.6(单位),有安全课程:43.2,显著降低接触力