返回列表 VLA / Vision-Language-Action 每日论文卡
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance
论文提出了 PokéVLA,一个轻量级但强大的具身操控基础模型,旨在解决现有视觉-语言-动作(VLA)模型效率低、缺乏高级知识和空间感知能力的…

论文详情

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

2026-04-22 · 原文 · 翻译 · 2604.20834

论文提出了 PokéVLA,一个轻量级但强大的具身操控基础模型,旨在解决现有视觉-语言-动作(VLA)模型效率低、缺乏高级知识和空间感知能力的问题。 核心框架采用两阶段训练范式:第一阶段在精心策划的多模态数据集上预训练紧凑的视觉语言模型(PokeVLM);第二阶段通过多视图目标感知语义学习、几何对齐和新颖的动作专家,将操控相关表示注入动作空间。 论文目标是通过引入具身先验知识和操控相关表示学习,构建一个既轻量高效、…

6 分钟读完 6 张阅读卡 CASIA (中国科学院自动化研究所)
一眼看懂 封面预览

论文提出了 PokéVLA,一个轻量级但强大的具身操控基础模型,旨在解决现有视觉-语言-动作(VLA)模型效率低、缺乏高级知识和空间感知能力的…

  • 论文提出了 PokéVLA,一个轻量级但强大的具身操控基础模型,旨在解决现有视觉-语言-动作(VLA)模型效率低、缺乏高级知识和空间感知能力的…
  • 核心框架采用两阶段训练范式:第一阶段在精心策划的多模态数据集上预训练紧凑的视觉语言模型(PokeVLM);第二阶段通过多视图目标感知语义学习、…
  • 论文目标是通过引入具身先验知识和操控相关表示学习,构建一个既轻量高效、又具备丰富空间和目标感知能力的机器人操控模型。
Card 01 研究单位

研究单位

  • CASIA (中国科学院自动化研究所)
  • TARS Robotics
  • 清华大学
  • 复旦大学
  • 新加坡国立大学
  • 同济大学
Card 02 论文概述

论文概述

  • 论文提出了 PokéVLA,一个轻量级但强大的具身操控基础模型,旨在解决现有视觉-语言-动作(VLA)模型效率低、缺乏高级知识和空间感知能力的问题。
  • 核心框架采用两阶段训练范式:第一阶段在精心策划的多模态数据集上预训练紧凑的视觉语言模型(PokeVLM);第二阶段通过多视图目标感知语义学习、几何对齐和新颖的动作专家,将操控相关表示注入动作空间。
  • 论文目标是通过引入具身先验知识和操控相关表示学习,构建一个既轻量高效、又具备丰富空间和目标感知能力的机器人操控模型。
Card 03 核心贡献

核心贡献

  • 收集并策划了包含约 2.4M 样本的大规模具身多模态数据集,用于预训练微型具身视觉语言模型,使其获得丰富的操控先验知识同时保留通用视觉语言能力。
  • 提出了一种学习操控相关表示的新方法,包括多视图一致的操控目标学习和几何对齐,并设计了一个新颖的动作头以高效地将这些表示注入动作学习过程。
  • 在仿真基准(LIBERO-Plus)和真实世界部署中进行了广泛实验,验证了方法在成功率和扰动鲁棒性方面的优越性能,超越了同规模基线模型。
  • 开源了代码、模型权重及预训练数据集构建脚本,以促进可复现性和社区进展。
Card 04 方法描述

方法描述

  • 采用两阶段训练框架。第一阶段基于 Prismatic-VLM 框架预训练 PokeVLM,使用 Qwen2.5-0.5B 语言模型和 DINO-SigLIP 双视觉编码器,在多模态具身数据上进行训练。
  • 第二阶段(VL-Action 后训练)引入三个关键创新:(1) 目标感知操控:通过学习特殊 token 生成多视图一致的语义分割掩码,引导模型关注操控目标;(2) 几何对齐:利用基础模型 VGGT 仅在训练阶段进行隐式空间表示对齐,将几何知识蒸馏进模型;(3) 动作头设计:使用交叉注意力机制,让动作查询聚合视觉特征、语言指令、机器人状态和语义分割嵌入,从而预测动作序列。
  • 整体训练目标包含动作预测损失、分割损失和几何对齐损失,通过加权组合优化模型。
Card 05 数据集与资源

数据集与资源

  • 预训练数据集:包含四类任务(通用理解、空间定位、功能预测、具身推理),总计约 2.4M 样本。具体数据集包括 LLaVA-Instruct-665KRefspatialRoboPointRobospatialHOVA-500K 等。
  • 模型规模:基于 Qwen2.5-0.5B 语言模型,总参数量为 1.22B,属于“口袋尺寸”的轻量级模型。
  • 训练资源:VLM 预训练在 8 GPU 上进行,有效批大小为 128;后训练阶段同样在 8 GPU 上进行,有效批大小为 64,采用 LoRA 方案进行优化。
Card 06 评估与结果

评估与结果

  • 评估环境:仿真基准 LIBERO 和更具挑战性的 LIBERO-Plus,以及真实机器人实验环境。LIBERO-Plus 包含七种扰动类型以测试鲁棒性。
  • 主要指标:任务成功率(%)。
  • 关键结果:

- 在 LIBERO 基准上,PokeVLA1.22B 参数量达到 98.2% 的总成功率,匹配最强并发方法表现,显著优于早期更大规模模型。

- 在 LIBERO-Plus 基准上,直接训练模型达到 83.5% 总成功率(SOTA);直接迁移实验(仅用 LIBERO 数据训练)中达到 79.3%,显著超越最强基线 OpenVLA-OFT(69.6%)。

- 真实世界实验中,在涉及空间和颜色指代任务上,成功率比基线方法提高 12.5%;在引入扰动后,性能差距扩大至 20.0%,显示出更强的鲁棒性。

- 消融实验验证了预训练数据、目标感知分割和几何对齐模块的有效性和必要性。