一眼看懂
封面预览
提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
- 提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
- 核心目标是将人类手部运动映射到机器人关节命令,解决低成本遥操作中复杂的运动映射问题
- 通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹,并可生成为模仿学习的训练数据
Card 01
研究单位
研究单位
- OMGrab Inc. 与 加州大学伯克利分校(通过Capstone项目)
- 加州大学伯克利分校机械工程系
Card 02
论文概述
论文概述
- 提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
- 核心目标是将人类手部运动映射到机器人关节命令,解决低成本遥操作中复杂的运动映射问题
- 通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹,并可生成为模仿学习的训练数据
Card 03
核心贡献
核心贡献
- 提出从自我中心RGB-D视频到单臂机器人轨迹生成的端到端管道
- 设计了使用PyBullet进行轨迹预览和验证,再部署到SO-ARM101机器人的仿真到现实工作流
- 在结构化抓取放置基准上,定量对比了分析式IK重定向与四种VLA策略(ACT、SmolVLA、π₀.₅、GR00T N1.5)
- 在杂乱的现实环境(杂货店、药房)中评估了系统的鲁棒性,揭示了无标记分析式重定向的潜力和局限
Card 04
方法描述
方法描述
- 使用MediaPipe Hands在CPU上实时检测每只手的21个关键点
- 通过深度反投影将2D关键点重建为3D相机坐标,并转换到机器人坐标系
- 在PyBullet中求解阻尼最小二乘逆运动学问题,生成6自由度SO-ARM101机器人的关节命令
- 设计了四级回退层级,将拇指-食指几何映射为抓取孔径,实现鲁棒的抓手控制
- 创新点在于零训练、分析式的运动重定向管道,以及处理深度无效和地标丢失的回退机制
Card 05
数据集与资源
数据集与资源
- 使用自采集的自我中心RGB-D演示数据(640×480, 30 FPS)
- 硬件:Intel RealSense D400相机,SO-ARM101 6自由度机械臂,3D打印眼镜支架
- 训练资源:VLA策略在Google Colab T4 GPU(16 GB)上微调;IK管道无需GPU训练
Card 06
评估与结果
评估与结果
- 评估环境:结构化抓取放置基准(5×5网格,每格10次抓取)和非结构化现实环境
- 主要指标:任务成功率
- 关键结果:
- IK重定向管道在结构化基准上达到90%成功率(零训练)
- 对比中,ACT达到92%,SmolVLA 50%,π₀.₅ 40%,GR00T N1.5 35%
- 在非结构化现实环境中成功率降至9.3%,主要失败原因为周围物体对手部的遮挡