一眼看懂
封面预览
提出 LingBot-VLA,一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作(VLA)基础模型
- 提出 LingBot-VLA,一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作(VLA)基础模型
- 使用约 20,000 小时的的真实机器人操作数据进行预训练,数据来自 9 种流行的双机械臂机器人配置
- 研究核心问题:VLA 模型如何随大规模真实世界机器人数据规模扩展性能,并提供了高效的训练代码库
Card 01
研究单位
研究单位
- 论文作者主要来自多家研究机构,包括 Robby Ant Technology、Galaxea Team、AgileX Robotics、Leju Robotics 等
- 项目负责人为 Kecheng Zheng
- 共同第一作者为 Wei Wu、Fan Lu、Yunnan Wang、Shuai Yang、Shi Liu、Fangjing Wang(同等贡献)
Card 02
论文概述
论文概述
- 提出 LingBot-VLA,一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作(VLA)基础模型
- 使用约 20,000 小时的的真实机器人操作数据进行预训练,数据来自 9 种流行的双机械臂机器人配置
- 研究核心问题:VLA 模型如何随大规模真实世界机器人数据规模扩展性能,并提供了高效的训练代码库
- 在 GM-100 基准上对 3 种机械臂平台进行系统评估,展示模型的强性能和广泛泛化能力
Card 03
核心贡献
核心贡献
- 大规模预训练数据:构建了包含约 20,000 小时真实机器人数据的预训练数据集,涵盖 9 种双机械臂平台
- 系统性评估框架:在 GM-100 基准上对 3 种机械臂平台进行大规模评估,每平台 100 个任务,每任务 130 个后训练回合
- 高效训练代码库:实现了 261 samples/second 的训练吞吐量,比现有 VLA 代码库快 1.5-2.8 倍
- 数据扩展规律:首次证明 VLA 性能随数据量扩展(3,000 到 20,000 小时)持续提升,且在 20,000 小时处未出现饱和
- 深度信息整合:通过视觉蒸馏方法将深度信息融入 VLA,进一步提升空间感知能力
Card 04
方法描述
方法描述
- 模型架构:采用 Mixture-of-Transformers (MoT) 架构,整合预训练的 Qwen2.5-VL 视觉语言模型与动作生成模块(action expert)
- 动作建模:使用 Flow Matching 进行连续动作建模,支持流畅平滑的机器人控制
- 注意力机制:实现块级因果注意力(blockwise causal attention),防止未来动作信息泄露到当前观测表示
- 深度信息整合:通过可学习查询将 VLM 与 LingBot-Depth 深度模型对齐,使用蒸馏损失训练
- 分布式训练优化:采用 FSDP(Fully Sharded Data Parallel)策略,针对 action expert 模块构建专门的"shard groups",使用混合精度训练
Card 05
数据集与资源
数据集与资源
- 预训练数据:约 20,000 小时真实世界双机械臂机器人操作数据,来自 9 种平台(AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO 4 Pro、Qinglong、ARX Lift2、Bimanual Franka)
- 评估基准:GM-100 基准包含 100 个细粒度操作任务,每个任务有 39,000 个专家演示
- 训练资源:8-GPU 训练设置,吞吐量达 261 samples/second
- 测试平台:3 种机械臂平台(AgileX、Agibot G1、Galaxea R1Pro),共 25 台物理机器人
Card 06
评估与结果
评估与结果
- 真实世界基准:LingBot-VLA w/ depth 在三平台平均达到 17.30% 成功率(SR) 和 35.41% 进度得分(PS)
- 对比基线:相比 π0.5,LingBot-VLA w/ depth 平均 SR 提升 4.28%,PS 提升 7.76%
- 模拟基准:在 RoboTwin 2.0 上,清洁场景达到 88.56% SR,随机场景达到 86.68% SR
- 扩展实验:从 3,000 小时扩展到 20,000 小时,成功率和进度得分均持续提升,验证了良好的扩展规律
- 数据效率:仅用 80 个演示/任务,LingBot-VLA 性能即可超过 π0.5 使用完整 130 个演示的结果