A tutorial note on collecting simulated data for vision-language-action models

论文详情

A tutorial note on collecting simulated data for vision-language-action models

2025-08-06 · 原文 · 翻译 · 2508.06547

本文是一篇关于为视觉-语言-动作 (VLA) 模型收集仿真数据的教程性论文，旨在解决其训练所需的高质量、多模态数据集的构建问题。论文系统性地回顾和比较了三种代表性的数据收集系统/方法，以指导研究人员构建适用于VLA模型训练的数据集。

5 分钟读完 6 张阅读卡 The University of Auckland

一眼看懂封面预览

本文是一篇关于为视觉-语言-动作 (VLA) 模型收集仿真数据的教程性论文，旨在解决其训练所需的高质量、多模态数据集的构建问题。

本文是一篇关于为视觉-语言-动作 (VLA) 模型收集仿真数据的教程性论文，旨在解决其训练所需的高质量、多模态数据集的构建问题。
论文系统性地回顾和比较了三种代表性的数据收集系统/方法，以指导研究人员构建适用于VLA模型训练的数据集。
提供了一份关于为视觉-语言-动作 (VLA) 模型构建仿真数据集的实用教程。

Card 01 研究单位

研究单位

The University of Auckland

Card 02 论文概述

论文概述

本文是一篇关于为视觉-语言-动作 (VLA) 模型收集仿真数据的教程性论文，旨在解决其训练所需的高质量、多模态数据集的构建问题。
论文系统性地回顾和比较了三种代表性的数据收集系统/方法，以指导研究人员构建适用于VLA模型训练的数据集。

Card 03 核心贡献

核心贡献

提供了一份关于为视觉-语言-动作 (VLA) 模型构建仿真数据集的实用教程。
详细阐述了使用 PyBullet 仿真框架（结合 Ravens）进行灵活定制化数据生成的完整流程、数据组织结构和具体实现方法。
展示了在 LIBERO 基准套件中如何通过修改场景定义（BDDL文件）和人工遥操作进行定制化数据收集。
全面概述了 RT-X 数据集的特点和作用，重点介绍了其跨具身 (Cross-Embodiment) 学习范式和统一的数据格式，为大规模多机器人数据获取提供了参考。
发布了相关的代码和数据资源以供社区使用。

Card 04 方法描述

方法描述

论文并非提出一种新方法，而是对三种现有的数据集构建方法进行了详细剖析和教程式说明。
PyBullet & Ravens: 利用PyBullet物理仿真引擎和Ravens任务套件，通过脚本化的“预言家”策略自动生成高精度的示范数据，提供了可控、高质量的数据生成方案。
LIBERO: 利用MuJoCo物理引擎和robosuite框架，通过修改行为域定义语言 (BDDL) 文件来定制任务场景，并演示了通过人类遥操作 (Teleoperation) 收集真实示范数据的完整工作流程。
RT-X: 介绍了一个大规模、多机构合作收集的真实机器人数据集，其核心创新在于通过标准化的动作表示（7维末端执行器位姿）抽象不同机器人的硬件差异，实现跨平台学习。

Card 05 数据集与资源

数据集与资源

PyBullet/Ravens: 收集了多个代表性操纵任务的数据（如block-insertion, place-red-in-green, towers-of-hanoi）。
LIBERO: 使用了其提供的清洗后数据集（如libero_10_no_noops），并演示了如何收集新的自定义任务数据。
RT-X: 该数据集包含超过 1 百万条来自 22 种不同机器人平台的真实机器人轨迹。
训练资源：未在文中明确指定，但模拟数据收集通常可在普通GPU工作站上进行。
代码与数据已开源：https://github.com/trustmlyoungscientist/dataset_for_VLA.git

Card 06 评估与结果

评估与结果

论文主要目标是对数据收集方法进行教程式说明和比较，而非报告特定模型的性能评估。
在PyBullet部分，报告了其演示数据收集任务取得了95%的成功率，证明了仿真环境和脚本策略的稳定性。
评估重点在于对不同数据收集范式的特性分析：PyBullet提供高质量、可控的仿真数据；LIBERO结合了标准基准与可定制的人类示范；RT-X则提供了大规模、多样化的真实世界数据，但其数据质量因收集机构而异。
核心结论：构建有效的VLA数据集需要综合考虑数据质量、规模和多样性，并根据研究目标（算法开发、真实性验证、大规模训练）选择合适的收集方法。