PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

一眼看懂封面预览

论文提出了 PokéVLA，一个轻量级但强大的具身操控基础模型，旨在解决现有视觉-语言-动作（VLA）模型效率低、缺乏高级知识和空间感知能力的…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了 PokéVLA，一个轻量级但强大的具身操控基础模型，旨在解决现有视觉-语言-动作（VLA）模型效率低、缺乏高级知识和空间感知能力的问题。
核心框架采用两阶段训练范式：第一阶段在精心策划的多模态数据集上预训练紧凑的视觉语言模型（PokeVLM）；第二阶段通过多视图目标感知语义学习、几何对齐和新颖的动作专家，将操控相关表示注入动作空间。
论文目标是通过引入具身先验知识和操控相关表示学习，构建一个既轻量高效、又具备丰富空间和目标感知能力的机器人操控模型。

Card 03 核心贡献

Card 04 方法描述

采用两阶段训练框架。第一阶段基于 Prismatic-VLM 框架预训练 PokeVLM，使用 Qwen2.5-0.5B 语言模型和 DINO-SigLIP 双视觉编码器，在多模态具身数据上进行训练。
第二阶段（VL-Action 后训练）引入三个关键创新：(1) 目标感知操控：通过学习特殊 token 生成多视图一致的语义分割掩码，引导模型关注操控目标；(2) 几何对齐：利用基础模型 VGGT 仅在训练阶段进行隐式空间表示对齐，将几何知识蒸馏进模型；(3) 动作头设计：使用交叉注意力机制，让动作查询聚合视觉特征、语言指令、机器人状态和语义分割嵌入，从而预测动作序列。
整体训练目标包含动作预测损失、分割损失和几何对齐损失，通过加权组合优化模型。

Card 05 数据集与资源

预训练数据集：包含四类任务（通用理解、空间定位、功能预测、具身推理），总计约 2.4M 样本。具体数据集包括 LLaVA-Instruct-665K、Refspatial、RoboPoint、Robospatial、HOVA-500K 等。
模型规模：基于 Qwen2.5-0.5B 语言模型，总参数量为 1.22B，属于“口袋尺寸”的轻量级模型。
训练资源：VLM 预训练在 8 GPU 上进行，有效批大小为 128；后训练阶段同样在 8 GPU 上进行，有效批大小为 64，采用 LoRA 方案进行优化。

Card 06 评估与结果

评估环境：仿真基准 LIBERO 和更具挑战性的 LIBERO-Plus，以及真实机器人实验环境。LIBERO-Plus 包含七种扰动类型以测试鲁棒性。
主要指标：任务成功率（%）。
关键结果：

- 在 LIBERO 基准上，PokeVLA 以 1.22B 参数量达到 98.2% 的总成功率，匹配最强并发方法表现，显著优于早期更大规模模型。

- 在 LIBERO-Plus 基准上，直接训练模型达到 83.5% 总成功率（SOTA）；直接迁移实验（仅用 LIBERO 数据训练）中达到 79.3%，显著超越最强基线 OpenVLA-OFT（69.6%）。

- 真实世界实验中，在涉及空间和颜色指代任务上，成功率比基线方法提高 12.5%；在引入扰动后，性能差距扩大至 20.0%，显示出更强的鲁棒性。

- 消融实验验证了预训练数据、目标感知分割和几何对齐模块的有效性和必要性。