XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

针对视觉-语言-动作模型对大规模高质量机器人示范数据的需求，提出一个基于扩展现实的跨平台机器人遥操作框架 XRoboToolkit。

Card 01 研究单位

研究单位

ByteDance, PICO (San Jose, CA, USA)
Georgia Institute of Technology, Institute for Robotics and Intelligent Machines (IRIM) (Atlanta, GA, USA)
George Mason University, Computer Science (Fairfax, VA, USA)

Card 02 论文概述

Card 03 核心贡献

提出并实现了一个基于 OpenXR 标准的跨平台 遥操作框架，支持 PICO 4 Ultra 和 Meta Quest 3 等多种XR设备。
开发了低延迟立体视觉反馈系统 和优化的视频流管道，显著降低了延迟。
提供了模块化架构，支持与多种机器人平台（UR5, ARX R5, Galaxea R1-Lite, Shadow灵巧手）和仿真环境（如 MuJoCo）的集成。
实现了多种控制模式，包括基于二次规划的逆运动学 求解器、灵巧手重定向 和移动底座控制。
通过数据收集实验验证了框架的有效性，用其收集的数据成功微调了VLA模型（π₀），并实现了高任务成功率。

Card 04 方法描述

系统由部署在XR头显上的 Unity Client 应用（用于采集位姿和提供立体视觉界面）和在PC上运行的 PC Service（用于机器人控制）组成。
关键技术：采用OpenXR 标准化数据流（90 Hz），涵盖头部、控制器、手势、全身及运动追踪器数据；使用QP（二次规划） 为基础的IK求解器，确保在奇异点附近的平滑运动；通过优化问题实现手部运动到机器人灵巧手的重定向。
创新点：支持立体视觉反馈（使用PICO 4 Ultra内置摄像头或外部ZED Mini摄像头）以增强深度感知；利用辅助运动追踪器作为额外的IK约束，实现对冗余机械臂更自然的人体工学控制。

Card 05 数据集与资源

Card 06 评估与结果

- 基准：与Open-TeleVision 框架进行对比。

- 评估指标：端到端视频流延迟（毫秒）。

- 关键结果：XRoboToolkit (ZED Mini – PICO 4 Ultra) 实现最低平均延迟 82.00 ms，优于 Open-TeleVision (ZED Mini – Quest 3) 的 121.50 ms。

- 评估指标：π₀ 模型微调后的任务成功率和自主行为。

- 关键结果：微调后的模型在30分钟 连续运行中实现 100% 成功率，并能展现出自主重抓取和重新定位等鲁棒行为。