返回列表 VLA / Vision-Language-Action 每日论文卡
InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
提出 InternVLA-A1,一个统一的视觉-语言-动作(VLA)框架,将场景理解、视觉预见生成和动作执行整合到单一架构中

论文详情

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

2026-01-05 · 原文 · 翻译 · 2601.02456

提出 InternVLA-A1,一个统一的视觉-语言-动作(VLA)框架,将场景理解、视觉预见生成和动作执行整合到单一架构中 解决现有 VLA 模型的物理世界动态推理能力不足和世界模型缺乏语义基础的问题 采用混合 Transformer(MoT)架构协调三个专家,在 692M 帧异构数据上预训练,在动态场景中表现出色

6 分钟读完 6 张阅读卡 Shanghai AI Laboratory(上海人工智能实验室)
一眼看懂 封面预览

提出 InternVLA-A1,一个统一的视觉-语言-动作(VLA)框架,将场景理解、视觉预见生成和动作执行整合到单一架构中

  • 提出 InternVLA-A1,一个统一的视觉-语言-动作(VLA)框架,将场景理解、视觉预见生成和动作执行整合到单一架构中
  • 解决现有 VLA 模型的物理世界动态推理能力不足和世界模型缺乏语义基础的问题
  • 采用混合 Transformer(MoT)架构协调三个专家,在 692M 帧异构数据上预训练,在动态场景中表现出色
Card 01 研究单位

研究单位

  • Shanghai AI Laboratory(上海人工智能实验室)
  • Humanoid Robot (Shanghai) Co., Ltd.(上海人形机器人有限公司)
Card 02 论文概述

论文概述

  • 提出 InternVLA-A1,一个统一的视觉-语言-动作(VLA)框架,将场景理解、视觉预见生成和动作执行整合到单一架构中
  • 解决现有 VLA 模型的物理世界动态推理能力不足和世界模型缺乏语义基础的问题
  • 采用混合 Transformer(MoT)架构协调三个专家,在 692M 帧异构数据上预训练,在动态场景中表现出色
Card 03 核心贡献

核心贡献

  • 提出统一的三专家架构:理解专家(Understanding Expert)、生成专家(Generation Expert)和动作专家(Action Expert)
  • 视觉预见生成模块:使用轻量级 VAE tokenizer(COSMOS CI8×8)和并行解码预测未来帧,推理速度约 13Hz
  • 动作预测:采用 Flow Matching 框架处理多模态动作分布
  • 异构数据联合训练:结合模拟数据、真实机器人和人类视频,有效减少 sim-to-real gap
  • 在 12 项真实机器人任务和模拟基准测试中一致优于现有 SOTA 模型
Card 04 方法描述

方法描述

  • 架构:基于 InternVL3-1B(2B 版本)和 Qwen3-VL-2B(3B 版本)的 MoT 架构
  • 理解专家:处理多视角图像和文本指令,生成上下文嵌入
  • 生成专家:使用 VAE 将图像编码为 32×32 潜在网格,通过 token 压缩(8×8 卷积)降至 4×4(16 tokens),并行解码生成未来帧
  • 动作专家:结合本体感知状态和前两个专家的特征,使用 Flow Matching 输出动作块
  • 注意力机制:采用分块注意力掩码,实现严格的信息流:理解 → 生成 → 动作
  • 训练:两阶段(预训练 700K 步 + 后训练 60K 步),联合优化视觉生成损失和动作预测损失
Card 05 数据集与资源

数据集与资源

  • 预训练数据(总计 692M 帧)

- 模拟数据:InternData-A1(396M 帧,64% 采样权重)、RoboTwin(17M 帧,8%)

- 真实机器人数据:AgiBot-World Beta(206M 帧,18%)、RoboMind(5M 帧,2%)

- 人类视频:EgoDex(68M 帧,8%)

  • 模型规模:InternVLA-A1(2B):1.8B 参数;InternVLA-A1(3B):3.2B 参数
  • 训练资源:使用 Load-balanced Parallel Training(LPT)分布式策略,在 8 张 RTX 4090 GPU 上可生成 209.7 小时/天的模拟数据
  • 推理速度:使用 torch.compile 在单张 RTX 4090 上约 13 Hz
Card 06 评估与结果

评估与结果

  • 评估环境:三种机器人平台(Agibot Genie-1、ARX Lift-2、ARX AC One),12 项真实任务 + RoboTwin 2.0 模拟基准
  • 评估指标:平均成功率(30 次 rollout/任务)
  • 主要结果

- 静态任务:InternVLA-A1(3B)达 75.1%,超越 π₀(60.6%)和 π₀.5(70.7%)

- 动态任务:InternVLA-A1(3B)达 86.7%,Express Sorting 超越 π₀.5 达 +26.7%,In-motion Ingredient Picking 超越 +26.6%

- RoboTwin 2.0:Easy 和 Hard 模式分别达 89.4% 和 89.6%,超越 π₀.5 达 +2.6%

  • 消融实验

- 预训练至关重要:移除后成功率从 77.0% 降至 25.4%

- 异构数据联合训练最优:模拟+真实+人类视频组合效果最好

- 生成专家是关键:移除后在 11/12 任务中性能下降,平均下降 19.4%