InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

一眼看懂封面预览

提出 InternVLA-A1，一个统一的视觉-语言-动作（VLA）框架，将场景理解、视觉预见生成和动作执行整合到单一架构中

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出统一的三专家架构：理解专家（Understanding Expert）、生成专家（Generation Expert）和动作专家（Action Expert）
视觉预见生成模块：使用轻量级 VAE tokenizer（COSMOS CI8×8）和并行解码预测未来帧，推理速度约 13Hz
动作预测：采用 Flow Matching 框架处理多模态动作分布
异构数据联合训练：结合模拟数据、真实机器人和人类视频，有效减少 sim-to-real gap
在 12 项真实机器人任务和模拟基准测试中一致优于现有 SOTA 模型

Card 04 方法描述

架构：基于 InternVL3-1B（2B 版本）和 Qwen3-VL-2B（3B 版本）的 MoT 架构
理解专家：处理多视角图像和文本指令，生成上下文嵌入
生成专家：使用 VAE 将图像编码为 32×32 潜在网格，通过 token 压缩（8×8 卷积）降至 4×4（16 tokens），并行解码生成未来帧
动作专家：结合本体感知状态和前两个专家的特征，使用 Flow Matching 输出动作块
注意力机制：采用分块注意力掩码，实现严格的信息流：理解 → 生成 → 动作
训练：两阶段（预训练 700K 步 + 后训练 60K 步），联合优化视觉生成损失和动作预测损失

Card 05 数据集与资源

- 模拟数据：InternData-A1（396M 帧，64% 采样权重）、RoboTwin（17M 帧，8%）

- 真实机器人数据：AgiBot-World Beta（206M 帧，18%）、RoboMind（5M 帧，2%）

- 人类视频：EgoDex（68M 帧，8%）

模型规模：InternVLA-A1（2B）：1.8B 参数；InternVLA-A1（3B）：3.2B 参数
训练资源：使用 Load-balanced Parallel Training（LPT）分布式策略，在 8 张 RTX 4090 GPU 上可生成 209.7 小时/天的模拟数据
推理速度：使用 torch.compile 在单张 RTX 4090 上约 13 Hz

Card 06 评估与结果

评估环境：三种机器人平台（Agibot Genie-1、ARX Lift-2、ARX AC One），12 项真实任务 + RoboTwin 2.0 模拟基准
评估指标：平均成功率（30 次 rollout/任务）
主要结果：

- 静态任务：InternVLA-A1（3B）达 75.1%，超越 π₀（60.6%）和 π₀.5（70.7%）

- 动态任务：InternVLA-A1（3B）达 86.7%，Express Sorting 超越 π₀.5 达 +26.7%，In-motion Ingredient Picking 超越 +26.6%

- RoboTwin 2.0：Easy 和 Hard 模式分别达 89.4% 和 89.6%，超越 π₀.5 达 +2.6%

- 预训练至关重要：移除后成功率从 77.0% 降至 25.4%

- 异构数据联合训练最优：模拟+真实+人类视频组合效果最好

- 生成专家是关键：移除后在 11/12 任务中性能下降，平均下降 19.4%