一眼看懂
封面预览
针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。
- 针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。
- 旨在解决当前遥操作方案存在的可扩展性差、设置复杂和数据质量不佳等问题。
- 提出并实现了一个基于 OpenXR 标准的跨平台 遥操作框架,支持 PICO 4 Ultra 和 Meta Quest 3 等多种XR设备。
Card 01
研究单位
研究单位
- ByteDance, PICO (San Jose, CA, USA)
- Georgia Institute of Technology, Institute for Robotics and Intelligent Machines (IRIM) (Atlanta, GA, USA)
- George Mason University, Computer Science (Fairfax, VA, USA)
Card 02
论文概述
论文概述
- 针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。
- 旨在解决当前遥操作方案存在的可扩展性差、设置复杂和数据质量不佳等问题。
Card 03
核心贡献
核心贡献
- 提出并实现了一个基于 OpenXR 标准的跨平台 遥操作框架,支持 PICO 4 Ultra 和 Meta Quest 3 等多种XR设备。
- 开发了低延迟立体视觉反馈系统 和优化的视频流管道,显著降低了延迟。
- 提供了模块化架构,支持与多种机器人平台(UR5, ARX R5, Galaxea R1-Lite, Shadow灵巧手)和仿真环境(如 MuJoCo)的集成。
- 实现了多种控制模式,包括基于二次规划的逆运动学 求解器、灵巧手重定向 和移动底座控制。
- 通过数据收集实验验证了框架的有效性,用其收集的数据成功微调了VLA模型(π₀),并实现了高任务成功率。
Card 04
方法描述
方法描述
- 系统由部署在XR头显上的 Unity Client 应用(用于采集位姿和提供立体视觉界面)和在PC上运行的 PC Service(用于机器人控制)组成。
- 关键技术:采用OpenXR 标准化数据流(90 Hz),涵盖头部、控制器、手势、全身及运动追踪器数据;使用QP(二次规划) 为基础的IK求解器,确保在奇异点附近的平滑运动;通过优化问题实现手部运动到机器人灵巧手的重定向。
- 创新点:支持立体视觉反馈(使用PICO 4 Ultra内置摄像头或外部ZED Mini摄像头)以增强深度感知;利用辅助运动追踪器作为额外的IK约束,实现对冗余机械臂更自然的人体工学控制。
Card 05
数据集与资源
数据集与资源
- 主要演示了在各种真实和仿真机器人平台上的应用,未使用大型公共数据集进行训练。
- 数据收集实验:用于VLA微调的100条 双ARX R5机械臂协同地毯折叠任务的示范数据。
- 训练资源:在VLA微调实验中,使用π₀ 模型,使用LoRA 微调,进行了80,000步训练(批量大小16)。
Card 06
评估与结果
评估与结果
- 视频流延迟对比实验:
- 基准:与Open-TeleVision 框架进行对比。
- 评估指标:端到端视频流延迟(毫秒)。
- 关键结果:XRoboToolkit (ZED Mini – PICO 4 Ultra) 实现最低平均延迟 82.00 ms,优于 Open-TeleVision (ZED Mini – Quest 3) 的 121.50 ms。
- VLA微调验证实验:
- 评估指标:π₀ 模型微调后的任务成功率和自主行为。
- 关键结果:微调后的模型在30分钟 连续运行中实现 100% 成功率,并能展现出自主重抓取和重新定位等鲁棒行为。