InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

一眼看懂封面预览

论文提出了一种新的训练范式 Vision-Language-Action Instruction Tuning (VLA-IT)，旨在将大型视…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了一种新的训练范式 Vision-Language-Action Instruction Tuning (VLA-IT)，旨在将大型视觉语言模型（VLM）的通用多模态推理能力与精确的机器人操作技能相结合。
核心研究目标是通过指令微调，使机器人模型在保留强大的视觉语言理解能力的同时，能够处理需要复杂推理的操纵任务，解决现有VLA模型存在的能力遗忘、数据稀缺和方法论差距问题。
论文构建了一个名为 InstructVLA 的端到端VLA模型，以及配套的 VLA-IT数据集 和 SimplerEnv-Instruct基准，用于评估指令跟随和推理能力。

Card 03 核心贡献

提出了 InstructVLA 模型和 Vision-Language-Action Instruction Tuning (VLA-IT) 训练范式，能够高效地保持预训练的视觉语言知识，并将操作作为指令跟随的一部分进行集成。
构建了包含65万样本的 VLA-IT数据集，用于支持VLA指令跟随的研究。
引入了 SimplerEnv-Instruct 基准，包含80个零样本操作任务，用于评估VLA模型的指令泛化和推理能力。
通过广泛的实验验证，证明了 InstructVLA 在机器人操作、多模态任务和真实世界部署中均能取得领先性能，实现了推理引导的操作。
提出了一种两阶段训练方案（动作预训练 + VLA-IT指令微调）和MoE适配架构，有效地缓解了任务干扰和灾难性遗忘。

Card 04 方法描述

模型架构以 Eagle2-2B VLM 为骨干，通过引入可学习的动作查询和 Mixture-of-Experts (MoE) 适配机制，使模型能够在推理模式和执行（动作）模式间动态切换。
使用一个独立的 Flow Matching动作专家模型，将VLM生成的潜在动作解码为具体的机器人动作，从而将低级控制学习与VLM骨干解耦。
训练分为两个阶段：1）动作预训练：在异构操作数据上训练动作专家，使其学会预测动作和语言描述的动作。2）VLA-IT指令微调：使用MoE适配器，在多模态数据集、操作数据集和VLA-IT数据集上联合训练，统一语言和潜在动作生成。

Card 05 数据集与资源

使用的数据集：大规模操作数据集（如 Bridge Data、 RT-1），以及论文自建的包含65万人类-机器人交互样本的 VLA-IT数据集。
模型规模：基于1.5B参数的 Eagle2-2B VLM 骨干，训练参数量分别为：动作预训练阶段650M参数，指令微调阶段220M参数（MoE适配器）。
训练资源：未在提供的文本中明确说明。

Card 06 评估与结果

评估环境：多模态基准（MMMU, MM-Vet, MME等）、机器人操作基准（SimplerEnv）、以及论文提出的 SimplerEnv-Instruct 基准。
主要评估指标：多模态基准的自动评分，机器人操作任务的成功率（VM/VA 视觉匹配/方差聚合）。
关键实验结果：

- 在SimperEnv操作任务上，InstructVLA 比 SpatialVLA 高出33%。

- 在 SimplerEnv-Instruct 基准上，InstructVLA 比经过微调的 OpenVLA 基线高出96%，比由 GPT-4o 辅助的动作专家模型高出29%。

- InstructVLA 保持了与原始 Eagle2 VLM 相当的多模态理解能力，远超其他VLA模型。

- 真实世界实验表明，InstructVLA 在需要推理的任务上比基线有显著提升（如原子任务提升23.3%，推理任务提升超过41.7%）。