InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

一眼看懂封面预览

提出 InternVLA-M1，一个统一的视觉-语言-动作框架，通过空间引导的视觉-语言-动作训练将空间 grounding 作为连接指令与机…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 InternVLA-M1，一个统一的视觉-语言-动作框架，通过空间引导的视觉-语言-动作训练将空间 grounding 作为连接指令与机器人动作的关键桥梁
核心思路：空间 grounding 预训练确定"在哪里行动"（where to act），然后通过空间提示（spatial prompting）生成具体动作决定"如何行动"（how to act）
目标：实现可扩展的、通用目的的指令跟随机器人智能

##核心贡献

提出两阶段空间引导训练配方：第一阶段在超过 230 万空间推理数据上进行空间 grounding 预训练，第二阶段进行空间引导的动作后训练
设计双系统架构：VLM Planner（System 2，慢速可靠推理者）+ Action Expert（DiT Actor，System 1，快速执行者）
构建可扩展的合成数据引擎，生成 24.4 万个通用化 pick-and-place 场景，支持 200 个任务和 3000+ 物体
在 SimplerEnv Google Robot 上比无空间引导版本提升 +14.6%，在 WidowX 上提升 +17%，在 LIBERO Franka 上提升 +4.3%
在真实世界杂乱场景 pick-and-place 中提升 +7.3%，在未见物体和新配置下达到 +20.6% 提升

Card 03 方法描述

模型架构：采用 Qwen2.5-VL-3B-instruct 作为多模态编码器（System 2），扩散策略（86M 参数）作为动作专家（System 1），总参数量约 4.1B
空间提示（Spatial Prompting）：在任务指令后附加空间提示如"Figure out how to execute it, then locate the key object needed"以激活空间感知能力
两阶段训练：

- 阶段 1：仅优化 VLM，在大规模多源多模态空间 grounding 数据上进行预训练

- 阶段 2：VLM 和 Action Expert 联合优化，使用空间提示和空间 grounding 数据协同训练

Card 04 数据集与资源

- General QA: 约 63.7 万样本

- Box QA: 约 87.9 万样本

- Trajectory QA: 约 68.4 万样本

- Point QA: 约 83.2 万样本

Card 05 评估与结果

- Google Robot Visual Matching: 95.3%（提升 +14.6%）

- Google Robot Visual Aggregation: 75.5%（提升 +12.4%）

- WidowX Visual Matching: 71.7%（提升 +17.0%）

- Spatial: 98.0%，Objects: 99.0%，Goal: 93.8%，Long: 92.6%，平均 95.9%

- 未见物体和配置：提升 +20.6%

- 长期推理任务：超越现有工作超过 10%