返回列表 VLA / Vision-Language-Action 每日论文卡
IA-VLA: Input Augmentation for Vision-Language-Action models in settings with semantically complex tasks
提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型…

论文详情

IA-VLA: Input Augmentation for Vision-Language-Action models in settings with semantically complex tasks

2025-09-29 · 原文 · 翻译 · 2509.24768

提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型(VLM)作为预处理阶段,生成改进的上下文来增强 VLA 输入 研究了 视觉重复对象(visual duplicates) 问题——即同一类别中视觉上无法区分的物体,需要通过空间关系来指定目标对象 在三种语义复杂的任务场景中进行评估:举起积木、填充花盆、打开抽屉,共进行了 1…

7 分钟读完 6 张阅读卡 Aalto University - Intelligent Robotics Group, Depa…
一眼看懂 封面预览

提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型…

  • 提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型…
  • 研究了 视觉重复对象(visual duplicates) 问题——即同一类别中视觉上无法区分的物体,需要通过空间关系来指定目标对象
  • 在三种语义复杂的任务场景中进行评估:举起积木、填充花盆、打开抽屉,共进行了 1290 次评估运行
Card 01 研究单位

研究单位

  • Aalto University - Intelligent Robotics Group, Department of Electrical Engineering and Automation, Espoo, Finland
  • University of Oulu - Biomimetics and Intelligent Systems Group, Faculty of Information Technology and Electrical Engineering, Oulu, Finland
  • Technical University of Denmark - Section of Mechanical Technology, Department of Engineering Technology and Didactics, Denmark
Card 02 论文概述

论文概述

  • 提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型(VLM)作为预处理阶段,生成改进的上下文来增强 VLA 输入
  • 研究了 视觉重复对象(visual duplicates) 问题——即同一类别中视觉上无法区分的物体,需要通过空间关系来指定目标对象
  • 在三种语义复杂的任务场景中进行评估:举起积木、填充花盆、打开抽屉,共进行了 1290 次评估运行
Card 03 核心贡献

核心贡献

  • 提出一个增强 VLA 输入的框架,用于处理语义复杂指令的任务
  • 形式化定义了视觉重复对象问题,并构建了相关数据集,这是 VLA 文献中以前研究不足的领域
  • 提供了框架的具体实现,使用 Semantic-SAM 进行分割、GPT-4.1 作为 VLM、SAM2 进行掩码传播
  • 在具有重复对象的环境中进行了全面的实验评估,证明 VLA 从增强方案中受益,特别是在需要从训练中看到的概念进行推断的指令上
Card 04 方法描述

方法描述

  • 使用 Semantic-SAM 对输入图像进行分割,为每个掩码添加数字标签
  • 将带标签的图像发送给 VLM(如 GPT-4.1),使其选择与任务相关的对象实例对应的数字
  • 使用掩码过滤算法(Mask Patch Filter 和 Mask Overlap Filter)优化掩码质量
  • 通过对非目标像素应用半透明灰色掩码(alpha=0.8)来突出显示相关对象实例
  • VLM 仅处理操作序列中的第一帧图像,后续帧使用 SAM2 进行掩码传播
  • 研究了两个变体:IA-VLA(保留原始指令)和 IA-VLA-relabeled(简化语言指令)
Card 05 数据集与资源

数据集与资源

  • 数据集包含三种任务设置:

- 举积木(Lifting blocks):120 个演示,12 种语言指令,最多 6 个积木,3 种颜色

- 填充花盆(Filling pots):120 个演示,2-4 个视觉无法区分的花盆

- 打开抽屉(Opening drawers):600 个演示,12 种语言指令,3 行抽屉

  • 使用 OpenVLA 作为基础 VLA 模型
  • VLM 采用 GPT-4.1,分割模型采用 Semantic-SAMSAM2
  • 训练资源:LoRA rank 32,batch size 16,learning rate 0.0005
Card 06 评估与结果

评估与结果

  • 评估指标:成功率百分比(满分 1 分,部分成功 0.5 分)
  • 举积木任务

- Category 1: OpenVLA 51% → IA-VLA 73% → IA-VLA-relabeled 76%

- Category 3: OpenVLA 19% → IA-VLA 76% → IA-VLA-relabeled 70%

  • 填充花盆任务

- Category 3: OpenVLA 20% → IA-VLA 53% → IA-VLA-relabeled 56%

  • 打开抽屉任务

- Category 3: OpenVLA 0% → IA-VLA 3% → IA-VLA-relabeled 68%

  • 失败模式分析:70% 为执行失败,24% 为 VLM 选择错误掩码,3% 为掩码生成失败
  • 预处理时间通常少于 10 秒,SAM2 掩码传播每帧仅增加 40 毫秒延迟