一眼看懂
封面预览
论文提出了一种新的训练范式 Vision-Language-Action Instruction Tuning (VLA-IT),旨在将大型视…
- 论文提出了一种新的训练范式 Vision-Language-Action Instruction Tuning (VLA-IT),旨在将大型视…
- 核心研究目标是通过指令微调,使机器人模型在保留强大的视觉语言理解能力的同时,能够处理需要复杂推理的操纵任务,解决现有VLA模型存在的能力遗忘、…
- 论文构建了一个名为 InstructVLA 的端到端VLA模型,以及配套的 VLA-IT数据集 和 SimplerEnv-Instruct基准…
Card 01
研究单位
研究单位
- University of Science and Technology of China
- Zhejiang University
- Shanghai Artificial Intelligence Laboratory
Card 02
论文概述
论文概述
- 论文提出了一种新的训练范式 Vision-Language-Action Instruction Tuning (VLA-IT),旨在将大型视觉语言模型(VLM)的通用多模态推理能力与精确的机器人操作技能相结合。
- 核心研究目标是通过指令微调,使机器人模型在保留强大的视觉语言理解能力的同时,能够处理需要复杂推理的操纵任务,解决现有VLA模型存在的能力遗忘、数据稀缺和方法论差距问题。
- 论文构建了一个名为 InstructVLA 的端到端VLA模型,以及配套的 VLA-IT数据集 和 SimplerEnv-Instruct基准,用于评估指令跟随和推理能力。
Card 03
核心贡献
核心贡献
- 提出了 InstructVLA 模型和 Vision-Language-Action Instruction Tuning (VLA-IT) 训练范式,能够高效地保持预训练的视觉语言知识,并将操作作为指令跟随的一部分进行集成。
- 构建了包含65万样本的 VLA-IT数据集,用于支持VLA指令跟随的研究。
- 引入了 SimplerEnv-Instruct 基准,包含80个零样本操作任务,用于评估VLA模型的指令泛化和推理能力。
- 通过广泛的实验验证,证明了 InstructVLA 在机器人操作、多模态任务和真实世界部署中均能取得领先性能,实现了推理引导的操作。
- 提出了一种两阶段训练方案(动作预训练 + VLA-IT指令微调)和MoE适配架构,有效地缓解了任务干扰和灾难性遗忘。
Card 04
方法描述
方法描述
- 模型架构以 Eagle2-2B VLM 为骨干,通过引入可学习的动作查询和 Mixture-of-Experts (MoE) 适配机制,使模型能够在推理模式和执行(动作)模式间动态切换。
- 使用一个独立的 Flow Matching动作专家模型,将VLM生成的潜在动作解码为具体的机器人动作,从而将低级控制学习与VLM骨干解耦。
- 训练分为两个阶段:1)动作预训练:在异构操作数据上训练动作专家,使其学会预测动作和语言描述的动作。2)VLA-IT指令微调:使用MoE适配器,在多模态数据集、操作数据集和VLA-IT数据集上联合训练,统一语言和潜在动作生成。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:大规模操作数据集(如 Bridge Data、 RT-1),以及论文自建的包含65万人类-机器人交互样本的 VLA-IT数据集。
- 模型规模:基于1.5B参数的 Eagle2-2B VLM 骨干,训练参数量分别为:动作预训练阶段650M参数,指令微调阶段220M参数(MoE适配器)。
- 训练资源:未在提供的文本中明确说明。
Card 06
评估与结果
评估与结果
- 评估环境:多模态基准(MMMU, MM-Vet, MME等)、机器人操作基准(SimplerEnv)、以及论文提出的 SimplerEnv-Instruct 基准。
- 主要评估指标:多模态基准的自动评分,机器人操作任务的成功率(VM/VA 视觉匹配/方差聚合)。
- 关键实验结果:
- 在SimperEnv操作任务上,InstructVLA 比 SpatialVLA 高出33%。
- 在 SimplerEnv-Instruct 基准上,InstructVLA 比经过微调的 OpenVLA 基线高出96%,比由 GPT-4o 辅助的动作专家模型高出29%。
- InstructVLA 保持了与原始 Eagle2 VLM 相当的多模态理解能力,远超其他VLA模型。
- 真实世界实验表明,InstructVLA 在需要推理的任务上比基线有显著提升(如原子任务提升23.3%,推理任务提升超过41.7%)。