一眼看懂
封面预览
提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型…
- 提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型…
- 研究了 视觉重复对象(visual duplicates) 问题——即同一类别中视觉上无法区分的物体,需要通过空间关系来指定目标对象
- 在三种语义复杂的任务场景中进行评估:举起积木、填充花盆、打开抽屉,共进行了 1290 次评估运行
Card 01
研究单位
研究单位
- Aalto University - Intelligent Robotics Group, Department of Electrical Engineering and Automation, Espoo, Finland
- University of Oulu - Biomimetics and Intelligent Systems Group, Faculty of Information Technology and Electrical Engineering, Oulu, Finland
- Technical University of Denmark - Section of Mechanical Technology, Department of Engineering Technology and Didactics, Denmark
Card 02
论文概述
论文概述
- 提出 IA-VLA (Input Augmentation for Vision-Language-Action) 框架,利用大型视觉语言模型(VLM)作为预处理阶段,生成改进的上下文来增强 VLA 输入
- 研究了 视觉重复对象(visual duplicates) 问题——即同一类别中视觉上无法区分的物体,需要通过空间关系来指定目标对象
- 在三种语义复杂的任务场景中进行评估:举起积木、填充花盆、打开抽屉,共进行了 1290 次评估运行
Card 03
核心贡献
核心贡献
- 提出一个增强 VLA 输入的框架,用于处理语义复杂指令的任务
- 形式化定义了视觉重复对象问题,并构建了相关数据集,这是 VLA 文献中以前研究不足的领域
- 提供了框架的具体实现,使用 Semantic-SAM 进行分割、GPT-4.1 作为 VLM、SAM2 进行掩码传播
- 在具有重复对象的环境中进行了全面的实验评估,证明 VLA 从增强方案中受益,特别是在需要从训练中看到的概念进行推断的指令上
Card 04
方法描述
方法描述
- 使用 Semantic-SAM 对输入图像进行分割,为每个掩码添加数字标签
- 将带标签的图像发送给 VLM(如 GPT-4.1),使其选择与任务相关的对象实例对应的数字
- 使用掩码过滤算法(Mask Patch Filter 和 Mask Overlap Filter)优化掩码质量
- 通过对非目标像素应用半透明灰色掩码(alpha=0.8)来突出显示相关对象实例
- VLM 仅处理操作序列中的第一帧图像,后续帧使用 SAM2 进行掩码传播
- 研究了两个变体:IA-VLA(保留原始指令)和 IA-VLA-relabeled(简化语言指令)
Card 05
数据集与资源
数据集与资源
- 数据集包含三种任务设置:
- 举积木(Lifting blocks):120 个演示,12 种语言指令,最多 6 个积木,3 种颜色
- 填充花盆(Filling pots):120 个演示,2-4 个视觉无法区分的花盆
- 打开抽屉(Opening drawers):600 个演示,12 种语言指令,3 行抽屉
- 使用 OpenVLA 作为基础 VLA 模型
- VLM 采用 GPT-4.1,分割模型采用 Semantic-SAM 和 SAM2
- 训练资源:LoRA rank 32,batch size 16,learning rate 0.0005
Card 06
评估与结果
评估与结果
- 评估指标:成功率百分比(满分 1 分,部分成功 0.5 分)
- 举积木任务:
- Category 1: OpenVLA 51% → IA-VLA 73% → IA-VLA-relabeled 76%
- Category 3: OpenVLA 19% → IA-VLA 76% → IA-VLA-relabeled 70%
- 填充花盆任务:
- Category 3: OpenVLA 20% → IA-VLA 53% → IA-VLA-relabeled 56%
- 打开抽屉任务:
- Category 3: OpenVLA 0% → IA-VLA 3% → IA-VLA-relabeled 68%
- 失败模式分析:70% 为执行失败,24% 为 VLM 选择错误掩码,3% 为掩码生成失败
- 预处理时间通常少于 10 秒,SAM2 掩码传播每帧仅增加 40 毫秒延迟