提出一种基于视觉的手部影子跟踪与重定向管道，通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作

论文详情

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

2026-03-11 · 原文 · 翻译 · 2603.11383

提出一种基于视觉的手部影子跟踪与重定向管道，通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作核心目标是将人类手部运动映射到机器人关节命令，解决低成本遥操作中复杂的运动映射问题通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹，并可生成为模仿学习的训练数据

4 分钟读完 6 张阅读卡 OMGrab Inc. 与加州大学伯克利分校（通过Capstone项目）

一眼看懂封面预览

提出一种基于视觉的手部影子跟踪与重定向管道，通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作

提出一种基于视觉的手部影子跟踪与重定向管道，通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
核心目标是将人类手部运动映射到机器人关节命令，解决低成本遥操作中复杂的运动映射问题
通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹，并可生成为模仿学习的训练数据

Card 01 研究单位

研究单位

OMGrab Inc. 与 加州大学伯克利分校（通过Capstone项目）
加州大学伯克利分校机械工程系

Card 02 论文概述

论文概述

提出一种基于视觉的手部影子跟踪与重定向管道，通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
核心目标是将人类手部运动映射到机器人关节命令，解决低成本遥操作中复杂的运动映射问题
通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹，并可生成为模仿学习的训练数据

Card 03 核心贡献

核心贡献

提出从自我中心RGB-D视频到单臂机器人轨迹生成的端到端管道
设计了使用PyBullet进行轨迹预览和验证，再部署到SO-ARM101机器人的仿真到现实工作流
在结构化抓取放置基准上，定量对比了分析式IK重定向与四种VLA策略（ACT、SmolVLA、π₀.₅、GR00T N1.5）
在杂乱的现实环境（杂货店、药房）中评估了系统的鲁棒性，揭示了无标记分析式重定向的潜力和局限

Card 04 方法描述

方法描述

使用MediaPipe Hands在CPU上实时检测每只手的21个关键点
通过深度反投影将2D关键点重建为3D相机坐标，并转换到机器人坐标系
在PyBullet中求解阻尼最小二乘逆运动学问题，生成6自由度SO-ARM101机器人的关节命令
设计了四级回退层级，将拇指-食指几何映射为抓取孔径，实现鲁棒的抓手控制
创新点在于零训练、分析式的运动重定向管道，以及处理深度无效和地标丢失的回退机制

Card 05 数据集与资源

数据集与资源

使用自采集的自我中心RGB-D演示数据（640×480， 30 FPS）
硬件：Intel RealSense D400相机，SO-ARM101 6自由度机械臂，3D打印眼镜支架
训练资源：VLA策略在Google Colab T4 GPU（16 GB）上微调；IK管道无需GPU训练

Card 06 评估与结果

评估与结果

评估环境：结构化抓取放置基准（5×5网格，每格10次抓取）和非结构化现实环境
主要指标：任务成功率
关键结果：

- IK重定向管道在结构化基准上达到90%成功率（零训练）

- 对比中，ACT达到92%，SmolVLA 50%，π₀.₅ 40%，GR00T N1.5 35%

- 在非结构化现实环境中成功率降至9.3%，主要失败原因为周围物体对手部的遮挡