Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding

一眼看懂封面预览

提出 OBEYED-VLA（OBject-centric and gEometrY groundED VLA）框架，通过显式解耦感知与动作推理…

Card 01 研究单位

研究单位

University of Arkansas, Fayetteville, AR, USA（Khoa Vo, Taisei Hanyu, Yuki Ikebe, Trong Thang Pham, Anthony Gunderman, Chase Rainwater, Ngan Le）
National University of Singapore, Singapore（Nhat Chung）
TU Wien, Vienna, Austria（Minh Nhat Vu）
Max Planck Research School for Intelligent Systems and University of Stuttgart, Stuttgart, Germany（Duy Nguyen Ho Minh）
University of Liverpool, Liverpool, U.K.（Anh Nguyen）

Card 02 论文概述

提出 OBEYED-VLA（OBject-centric and gEometrY groundED VLA）框架，通过显式解耦感知与动作推理，解决现有 Vision-Language-Action（VLA）模型在杂乱场景中视觉-语言对齐退化的问题
针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式，引入以对象为中心的几何感知感知模块，无需合成杂乱数据或辅助感知目标即可增强鲁棒性

Card 03 核心贡献

Card 04 方法描述

- 对象中心感知：使用 Qwen3-VL 通过 set-of-mark 提示机制，在基座视图和腕部视图之间进行跨视图区域匹配，选择与任务指令相关的对象区域

- 几何感知：使用 Depth Anything v2 将 RGB 转换为深度图，强调对象的 3D 结构而非外观

动作推理：将感知感知后的视觉输入（掩码深度图）与语言指令、机器人本体感知一起输入预训练的 VLA 策略（Pi-0 或 Pi-0 FAST），仅微调 VLA 参数，感知模块保持冻结
采用 YOLO11-Seg 进行对象分割，在混合数据集上微调以平衡效率与准确性

Card 05 数据集与资源

训练数据：2000 个真实世界遥操作演示，包含 8 种杂货对象（spice bottle, green coffee bag, mustard bottle, ketchup bottle, mayonnaise bottle, food can, spam tin, green oil bottle），仅在干净单对象场景中收集
测试对象：7 种未见过的杂货对象用于泛化测试
模型规模：VLM 使用 Qwen3-VL 8B-Instruct；VLA 使用 Pi-0 和 Pi-0 FAST
训练资源：4 块 NVIDIA A6000 GPU，使用 LoRA 微调 50K 迭代，学习率 1×10⁻⁵，批次大小 128
推理资源：2 块 A6000 GPU 部署 VLM，单块 GPU 进行策略推理

Card 06 评估与结果

- 干扰对象任务（0/1/4/7 个干扰物）

- 缺失目标拒绝任务（absent-target rejection）

- 空间推理任务（"left object" 等关系指令）

- 背景变化鲁棒性（桌布、背景幕布、彩色纸张等）

- 未见对象杂乱场景操作

- 在 4 个干扰物场景下，OBEYED-VLA 保持约 85% 成功率，而基线模型降至 10% 以下，平均提升 4 倍

- 缺失目标拒绝任务达到约 95% 成功率，基线仅 10-40%

- 空间推理任务达到约 75% 成功率，比最佳基线提升 40 个百分点

- 背景变化场景保持 ≥80% 成功率，基线显著下降

- 未见对象杂乱场景保持 78% 成功率