一眼看懂
封面预览
提出 Lumo-1,一个用于端到端机器人控制的通用型视觉-语言-动作模型,其核心是将机器人的“心智”(推理)与“手”(动作)统一起来。
- 提出 Lumo-1,一个用于端到端机器人控制的通用型视觉-语言-动作模型,其核心是将机器人的“心智”(推理)与“手”(动作)统一起来。
- 旨在解决机器人系统在面对现实世界多样性和基于自然语言的复杂指令时,缺乏透明、有目的的推理能力的问题,从而实现可控、可泛化的机器人操作。
- 提出了一个系统的三阶段训练流程:VLM持续预训练 → 跨具身数据联合训练 → 结合推理过程的动作训练,以渐进方式将通用VLM能力扩展到具身推理…
Card 01
研究单位
研究单位
- Astribot Team (隶属于 Astribot 公司)
Card 02
论文概述
论文概述
- 提出 Lumo-1,一个用于端到端机器人控制的通用型视觉-语言-动作模型,其核心是将机器人的“心智”(推理)与“手”(动作)统一起来。
- 旨在解决机器人系统在面对现实世界多样性和基于自然语言的复杂指令时,缺乏透明、有目的的推理能力的问题,从而实现可控、可泛化的机器人操作。
Card 03
核心贡献
核心贡献
- 提出了一个系统的三阶段训练流程:VLM持续预训练 → 跨具身数据联合训练 → 结合推理过程的动作训练,以渐进方式将通用VLM能力扩展到具身推理和动作生成。
- 引入了空间动作分词器,提供一种紧凑、可控的动作离散化表示,比现有的FAST分词器和分箱法更高效。
- 设计了结合离散与连续动作表示的架构:使用离散动作进行稳定预训练,并在微调阶段引入基于流匹配的动作专家来高效生成连续动作。
- 提出了具身推理数据构建和推理-动作联合训练范式,使模型能够生成结构化的推理步骤(如概念推理、子任务规划、视觉定位),以指导有目的的行动。
- 利用强化学习 来进一步优化推理与动作的一致性,通过设计专门的视觉、一致性、动作和格式奖励,增强模型输出质量。
Card 04
方法描述
方法描述
- 方法基于预训练的视觉-语言模型Qwen2.5-VL-7B,通过三个阶段进行扩展:
1. 阶段1:在包含具身规划、空间感知、空间理解和轨迹预测的精选视觉-语言数据上进行持续预训练,增强基础推理能力。
2. 阶段2:将多种机器人的跨具身轨迹数据与视觉-语言数据联合训练,使模型学会动作预测,同时保留通用知识。
3. 阶段3:在目标平台Astribot S1(一个灵巧的双臂移动操作器)收集的数据上进行训练,并结合构造的推理数据,使模型能够进行结构化的“思考”后再行动。
- 关键技术包括:空间动作分词器(基于AWE算法提取路径点,并通过聚类构建动作词库)、推理-动作序列化训练(在推理token后接续动作token)、以及使用GRPO算法的强化学习进行微调。
Card 05
数据集与资源
数据集与资源
- 使用了多种数据集,包括 Qwen2.5-VL-7B (基础模型)、Cambrian-10M、LLaVA-665K、RefSpatial、ShareRobot 等用于VLM预训练;跨具身机器人数据来自 AGIBot Genie-1、Astribot S1 原型机等;以及自收集的大量 Astribot S1 机器人轨迹数据。
- 模型参数量为 ~70亿 (基于Qwen2.5-VL-7B)。
- 训练使用了大量 H100 GPU(例如,阶段2使用128张H100训练了10万步,总计处理约2000亿Token)。
Card 06
评估与结果
评估与结果
- 评估环境包括公开VLM基准测试和真实世界机器人任务评估。
- 主要评估指标包括:VLM基准(如CV-Bench, EmbSpatial, Where2Place)上的准确率;以及机器人任务的成功率。
- 关键实验结果:
- 在VLM评估中,Lumo-1-Stage1 在多个空间理解与感知基准上超越了其主干模型和专门的具身模型 RoboBrain-7B-2.0,证明其具身推理能力得到增强。
- 在真实机器人任务(通用拾放、长时程任务、灵巧操作)上,Lumo-1 全面超越了基线模型 π0 和 π0.5,尤其在处理需要概念、策略和空间推理的复杂指令时表现出色。
- 强化学习微调进一步提升了推理质量和动作一致性。