Mind to Hand: Purposeful Robotic Control via Embodied Reasoning - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 Lumo-1，一个用于端到端机器人控制的通用型视觉-语言-动作模型，其核心是将机器人的“心智”（推理）与“手”（动作）统一起来。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出了一个系统的三阶段训练流程：VLM持续预训练 → 跨具身数据联合训练 → 结合推理过程的动作训练，以渐进方式将通用VLM能力扩展到具身推理和动作生成。
引入了空间动作分词器，提供一种紧凑、可控的动作离散化表示，比现有的FAST分词器和分箱法更高效。
设计了结合离散与连续动作表示的架构：使用离散动作进行稳定预训练，并在微调阶段引入基于流匹配的动作专家来高效生成连续动作。
提出了具身推理数据构建和推理-动作联合训练范式，使模型能够生成结构化的推理步骤（如概念推理、子任务规划、视觉定位），以指导有目的的行动。
利用强化学习 来进一步优化推理与动作的一致性，通过设计专门的视觉、一致性、动作和格式奖励，增强模型输出质量。

Card 04 方法描述

1. 阶段1：在包含具身规划、空间感知、空间理解和轨迹预测的精选视觉-语言数据上进行持续预训练，增强基础推理能力。

2. 阶段2：将多种机器人的跨具身轨迹数据与视觉-语言数据联合训练，使模型学会动作预测，同时保留通用知识。

3. 阶段3：在目标平台Astribot S1（一个灵巧的双臂移动操作器）收集的数据上进行训练，并结合构造的推理数据，使模型能够进行结构化的“思考”后再行动。

关键技术包括：空间动作分词器（基于AWE算法提取路径点，并通过聚类构建动作词库）、推理-动作序列化训练（在推理token后接续动作token）、以及使用GRPO算法的强化学习进行微调。

Card 05 数据集与资源

使用了多种数据集，包括 Qwen2.5-VL-7B (基础模型)、Cambrian-10M、LLaVA-665K、RefSpatial、ShareRobot 等用于VLM预训练；跨具身机器人数据来自 AGIBot Genie-1、Astribot S1 原型机等；以及自收集的大量 Astribot S1 机器人轨迹数据。
模型参数量为 ~70亿 (基于Qwen2.5-VL-7B)。
训练使用了大量 H100 GPU（例如，阶段2使用128张H100训练了10万步，总计处理约2000亿Token）。

Card 06 评估与结果

评估环境包括公开VLM基准测试和真实世界机器人任务评估。
主要评估指标包括：VLM基准（如CV-Bench, EmbSpatial, Where2Place）上的准确率；以及机器人任务的成功率。
关键实验结果：

- 在VLM评估中，Lumo-1-Stage1 在多个空间理解与感知基准上超越了其主干模型和专门的具身模型 RoboBrain-7B-2.0，证明其具身推理能力得到增强。

- 在真实机器人任务（通用拾放、长时程任务、灵巧操作）上，Lumo-1 全面超越了基线模型 π0 和 π0.5，尤其在处理需要概念、策略和空间推理的复杂指令时表现出色。

- 强化学习微调进一步提升了推理质量和动作一致性。