返回列表 VLA / Vision-Language-Action 每日论文卡

XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation

论文详情

XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation

2025-07-31 · 原文 · 翻译 · 2508.00097

针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。 旨在解决当前遥操作方案存在的可扩展性差、设置复杂和数据质量不佳等问题。

5 分钟读完 6 张阅读卡 ByteDance, PICO (San Jose, CA, USA)
一眼看懂 封面预览

针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。

  • 针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。
  • 旨在解决当前遥操作方案存在的可扩展性差、设置复杂和数据质量不佳等问题。
  • 提出并实现了一个基于 OpenXR 标准的跨平台 遥操作框架,支持 PICO 4 Ultra 和 Meta Quest 3 等多种XR设备。
Card 01 研究单位

研究单位

  • ByteDance, PICO (San Jose, CA, USA)
  • Georgia Institute of Technology, Institute for Robotics and Intelligent Machines (IRIM) (Atlanta, GA, USA)
  • George Mason University, Computer Science (Fairfax, VA, USA)
Card 02 论文概述

论文概述

  • 针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求,提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit
  • 旨在解决当前遥操作方案存在的可扩展性差、设置复杂和数据质量不佳等问题。
Card 03 核心贡献

核心贡献

  • 提出并实现了一个基于 OpenXR 标准的跨平台 遥操作框架,支持 PICO 4 UltraMeta Quest 3 等多种XR设备。
  • 开发了低延迟立体视觉反馈系统 和优化的视频流管道,显著降低了延迟。
  • 提供了模块化架构,支持与多种机器人平台(UR5, ARX R5, Galaxea R1-Lite, Shadow灵巧手)和仿真环境(如 MuJoCo)的集成。
  • 实现了多种控制模式,包括基于二次规划的逆运动学 求解器、灵巧手重定向移动底座控制
  • 通过数据收集实验验证了框架的有效性,用其收集的数据成功微调了VLA模型(π₀),并实现了高任务成功率。
Card 04 方法描述

方法描述

  • 系统由部署在XR头显上的 Unity Client 应用(用于采集位姿和提供立体视觉界面)和在PC上运行的 PC Service(用于机器人控制)组成。
  • 关键技术:采用OpenXR 标准化数据流(90 Hz),涵盖头部、控制器、手势、全身及运动追踪器数据;使用QP(二次规划) 为基础的IK求解器,确保在奇异点附近的平滑运动;通过优化问题实现手部运动到机器人灵巧手的重定向
  • 创新点:支持立体视觉反馈(使用PICO 4 Ultra内置摄像头或外部ZED Mini摄像头)以增强深度感知;利用辅助运动追踪器作为额外的IK约束,实现对冗余机械臂更自然的人体工学控制。
Card 05 数据集与资源

数据集与资源

  • 主要演示了在各种真实和仿真机器人平台上的应用,未使用大型公共数据集进行训练。
  • 数据收集实验:用于VLA微调的100条 双ARX R5机械臂协同地毯折叠任务的示范数据。
  • 训练资源:在VLA微调实验中,使用π₀ 模型,使用LoRA 微调,进行了80,000步训练(批量大小16)。
Card 06 评估与结果

评估与结果

  • 视频流延迟对比实验

- 基准:与Open-TeleVision 框架进行对比。

- 评估指标:端到端视频流延迟(毫秒)。

- 关键结果XRoboToolkit (ZED Mini – PICO 4 Ultra) 实现最低平均延迟 82.00 ms,优于 Open-TeleVision (ZED Mini – Quest 3) 的 121.50 ms

  • VLA微调验证实验

- 评估指标π₀ 模型微调后的任务成功率和自主行为。

- 关键结果:微调后的模型在30分钟 连续运行中实现 100% 成功率,并能展现出自主重抓取和重新定位等鲁棒行为。