返回列表 VLA / Vision-Language-Action 每日论文卡
Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics
提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作

论文详情

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

2026-03-11 · 原文 · 翻译 · 2603.11383

提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作 核心目标是将人类手部运动映射到机器人关节命令,解决低成本遥操作中复杂的运动映射问题 通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹,并可生成为模仿学习的训练数据

4 分钟读完 6 张阅读卡 OMGrab Inc. 与 加州大学伯克利分校(通过Capstone项目)
一眼看懂 封面预览

提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作

  • 提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
  • 核心目标是将人类手部运动映射到机器人关节命令,解决低成本遥操作中复杂的运动映射问题
  • 通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹,并可生成为模仿学习的训练数据
Card 01 研究单位

研究单位

  • OMGrab Inc.加州大学伯克利分校(通过Capstone项目)
  • 加州大学伯克利分校机械工程系
Card 02 论文概述

论文概述

  • 提出一种基于视觉的手部影子跟踪与重定向管道,通过单个自我中心RGB-D相机实现低成本机械臂的离线遥操作
  • 核心目标是将人类手部运动映射到机器人关节命令,解决低成本遥操作中复杂的运动映射问题
  • 通过分析式逆运动学将第一人称RGB-D记录转换为机器人轨迹,并可生成为模仿学习的训练数据
Card 03 核心贡献

核心贡献

  • 提出从自我中心RGB-D视频到单臂机器人轨迹生成的端到端管道
  • 设计了使用PyBullet进行轨迹预览和验证,再部署到SO-ARM101机器人的仿真到现实工作流
  • 在结构化抓取放置基准上,定量对比了分析式IK重定向与四种VLA策略(ACT、SmolVLA、π₀.₅、GR00T N1.5)
  • 在杂乱的现实环境(杂货店、药房)中评估了系统的鲁棒性,揭示了无标记分析式重定向的潜力和局限
Card 04 方法描述

方法描述

  • 使用MediaPipe Hands在CPU上实时检测每只手的21个关键点
  • 通过深度反投影将2D关键点重建为3D相机坐标,并转换到机器人坐标系
  • PyBullet中求解阻尼最小二乘逆运动学问题,生成6自由度SO-ARM101机器人的关节命令
  • 设计了四级回退层级,将拇指-食指几何映射为抓取孔径,实现鲁棒的抓手控制
  • 创新点在于零训练、分析式的运动重定向管道,以及处理深度无效和地标丢失的回退机制
Card 05 数据集与资源

数据集与资源

  • 使用自采集的自我中心RGB-D演示数据(640×480, 30 FPS)
  • 硬件:Intel RealSense D400相机,SO-ARM101 6自由度机械臂,3D打印眼镜支架
  • 训练资源:VLA策略在Google Colab T4 GPU(16 GB)上微调;IK管道无需GPU训练
Card 06 评估与结果

评估与结果

  • 评估环境:结构化抓取放置基准(5×5网格,每格10次抓取)和非结构化现实环境
  • 主要指标:任务成功率
  • 关键结果:

- IK重定向管道在结构化基准上达到90%成功率(零训练)

- 对比中,ACT达到92%,SmolVLA 50%,π₀.₅ 40%,GR00T N1.5 35%

- 在非结构化现实环境中成功率降至9.3%,主要失败原因为周围物体对手部的遮挡