提出 LingBot-VLA，一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作（VLA）基础模型

论文详情

A Pragmatic VLA Foundation Model

2026-01-26 · 原文 · 翻译 · 2601.18692

提出 LingBot-VLA，一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作（VLA）基础模型使用约 20,000 小时的的真实机器人操作数据进行预训练，数据来自 9 种流行的双机械臂机器人配置研究核心问题：VLA 模型如何随大规模真实世界机器人数据规模扩展性能，并提供了高效的训练代码库在 GM-100 基准上对 3 种机械臂平台进行系统评估，展示模型的强性能和广泛泛化能力

6 分钟读完 6 张阅读卡论文作者主要来自多家研究机构，包括 Robby Ant Technology、Galaxea Team…

一眼看懂封面预览

提出 LingBot-VLA，一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作（VLA）基础模型

提出 LingBot-VLA，一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作（VLA）基础模型
使用约 20,000 小时的的真实机器人操作数据进行预训练，数据来自 9 种流行的双机械臂机器人配置
研究核心问题：VLA 模型如何随大规模真实世界机器人数据规模扩展性能，并提供了高效的训练代码库

Card 01 研究单位

研究单位

论文作者主要来自多家研究机构，包括 Robby Ant Technology、Galaxea Team、AgileX Robotics、Leju Robotics 等
项目负责人为 Kecheng Zheng
共同第一作者为 Wei Wu、Fan Lu、Yunnan Wang、Shuai Yang、Shi Liu、Fangjing Wang（同等贡献）

Card 02 论文概述

论文概述

提出 LingBot-VLA，一个基于大规模真实世界双机械臂数据训练的视觉-语言-动作（VLA）基础模型
使用约 20,000 小时的的真实机器人操作数据进行预训练，数据来自 9 种流行的双机械臂机器人配置
研究核心问题：VLA 模型如何随大规模真实世界机器人数据规模扩展性能，并提供了高效的训练代码库
在 GM-100 基准上对 3 种机械臂平台进行系统评估，展示模型的强性能和广泛泛化能力

Card 03 核心贡献

核心贡献

大规模预训练数据：构建了包含约 20,000 小时真实机器人数据的预训练数据集，涵盖 9 种双机械臂平台
系统性评估框架：在 GM-100 基准上对 3 种机械臂平台进行大规模评估，每平台 100 个任务，每任务 130 个后训练回合
高效训练代码库：实现了 261 samples/second 的训练吞吐量，比现有 VLA 代码库快 1.5-2.8 倍
数据扩展规律：首次证明 VLA 性能随数据量扩展（3,000 到 20,000 小时）持续提升，且在 20,000 小时处未出现饱和
深度信息整合：通过视觉蒸馏方法将深度信息融入 VLA，进一步提升空间感知能力

Card 04 方法描述

方法描述

模型架构：采用 Mixture-of-Transformers (MoT) 架构，整合预训练的 Qwen2.5-VL 视觉语言模型与动作生成模块（action expert）
动作建模：使用 Flow Matching 进行连续动作建模，支持流畅平滑的机器人控制
注意力机制：实现块级因果注意力（blockwise causal attention），防止未来动作信息泄露到当前观测表示
深度信息整合：通过可学习查询将 VLM 与 LingBot-Depth 深度模型对齐，使用蒸馏损失训练
分布式训练优化：采用 FSDP（Fully Sharded Data Parallel）策略，针对 action expert 模块构建专门的"shard groups"，使用混合精度训练

Card 05 数据集与资源

数据集与资源

预训练数据：约 20,000 小时真实世界双机械臂机器人操作数据，来自 9 种平台（AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO 4 Pro、Qinglong、ARX Lift2、Bimanual Franka）
评估基准：GM-100 基准包含 100 个细粒度操作任务，每个任务有 39,000 个专家演示
训练资源：8-GPU 训练设置，吞吐量达 261 samples/second
测试平台：3 种机械臂平台（AgileX、Agibot G1、Galaxea R1Pro），共 25 台物理机器人

Card 06 评估与结果

评估与结果

真实世界基准：LingBot-VLA w/ depth 在三平台平均达到 17.30% 成功率（SR） 和 35.41% 进度得分（PS）
对比基线：相比 π0.5，LingBot-VLA w/ depth 平均 SR 提升 4.28%，PS 提升 7.76%
模拟基准：在 RoboTwin 2.0 上，清洁场景达到 88.56% SR，随机场景达到 86.68% SR
扩展实验：从 3,000 小时扩展到 20,000 小时，成功率和进度得分均持续提升，验证了良好的扩展规律
数据效率：仅用 80 个演示/任务，LingBot-VLA 性能即可超过 π0.5 使用完整 130 个演示的结果