返回列表 VLA / Vision-Language-Action 每日论文卡
Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding
提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理…

论文详情

Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding

2025-12-27 · 原文 · 翻译 · 2512.22519

提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理,解决现有 Vision-Language-Action(VLA)模型在杂乱场景中视觉-语言对齐退化的问题 针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式,引入以对象为中心的几何感知感知模块,无需合成杂乱数据或辅助感知目标即可增强鲁棒性

7 分钟读完 6 张阅读卡 University of Arkansas, Fayetteville, AR, USA(Khoa…
一眼看懂 封面预览

提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理…

  • 提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理…
  • 针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式,引入以对象为中心的几何感知感知模块,无需合成杂乱数据或辅助感知目…
  • 提出 OBEYED-VLA 框架,为 VLA 配备对象几何感知模块,提供语义相关且空间感知的观测输入
Card 01 研究单位

研究单位

  • University of Arkansas, Fayetteville, AR, USA(Khoa Vo, Taisei Hanyu, Yuki Ikebe, Trong Thang Pham, Anthony Gunderman, Chase Rainwater, Ngan Le)
  • National University of Singapore, Singapore(Nhat Chung)
  • TU Wien, Vienna, Austria(Minh Nhat Vu)
  • Max Planck Research School for Intelligent Systems and University of Stuttgart, Stuttgart, Germany(Duy Nguyen Ho Minh)
  • University of Liverpool, Liverpool, U.K.(Anh Nguyen)
Card 02 论文概述

论文概述

  • 提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理,解决现有 Vision-Language-Action(VLA)模型在杂乱场景中视觉-语言对齐退化的问题
  • 针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式,引入以对象为中心的几何感知感知模块,无需合成杂乱数据或辅助感知目标即可增强鲁棒性
Card 03 核心贡献

核心贡献

  • 提出 OBEYED-VLA 框架,为 VLA 配备对象几何感知模块,提供语义相关且空间感知的观测输入
  • 在真实世界实验中,OBEYED-VLA 在多种干扰设置和环境杂乱挑战下展现出优于强 VLA 基线的鲁棒性,尽管仅在干净单对象演示上微调
  • 证明 OBEYED-VLA 能有效泛化到未见过的目标对象和新场景组合,保持可靠的视觉运动性能
  • 通过消融研究验证两阶段对象中心感知和显式几何感知的关键作用
Card 04 方法描述

方法描述

  • 感知感知模块:包含两个互补阶段

- 对象中心感知:使用 Qwen3-VL 通过 set-of-mark 提示机制,在基座视图和腕部视图之间进行跨视图区域匹配,选择与任务指令相关的对象区域

- 几何感知:使用 Depth Anything v2 将 RGB 转换为深度图,强调对象的 3D 结构而非外观

  • 动作推理:将感知感知后的视觉输入(掩码深度图)与语言指令、机器人本体感知一起输入预训练的 VLA 策略(Pi-0Pi-0 FAST),仅微调 VLA 参数,感知模块保持冻结
  • 采用 YOLO11-Seg 进行对象分割,在混合数据集上微调以平衡效率与准确性
Card 05 数据集与资源

数据集与资源

  • 训练数据:2000 个真实世界遥操作演示,包含 8 种杂货对象(spice bottle, green coffee bag, mustard bottle, ketchup bottle, mayonnaise bottle, food can, spam tin, green oil bottle),仅在干净单对象场景中收集
  • 测试对象:7 种未见过的杂货对象用于泛化测试
  • 模型规模:VLM 使用 Qwen3-VL 8B-Instruct;VLA 使用 Pi-0Pi-0 FAST
  • 训练资源:4 块 NVIDIA A6000 GPU,使用 LoRA 微调 50K 迭代,学习率 1×10⁻⁵,批次大小 128
  • 推理资源:2 块 A6000 GPU 部署 VLM,单块 GPU 进行策略推理
Card 06 评估与结果

评估与结果

  • 评估环境:真实世界 UR10e 机器人平台,配备 Robotiq 2F-85 平行爪夹具,基座视图和腕部视图双相机,10Hz 控制频率
  • 评估基准

- 干扰对象任务(0/1/4/7 个干扰物)

- 缺失目标拒绝任务(absent-target rejection)

- 空间推理任务("left object" 等关系指令)

- 背景变化鲁棒性(桌布、背景幕布、彩色纸张等)

- 未见对象杂乱场景操作

  • 主要指标:成功率(%)及 95% 置信区间
  • 关键结果

- 在 4 个干扰物场景下,OBEYED-VLA 保持约 85% 成功率,而基线模型降至 10% 以下,平均提升 4 倍

- 缺失目标拒绝任务达到约 95% 成功率,基线仅 10-40%

- 空间推理任务达到约 75% 成功率,比最佳基线提升 40 个百分点

- 背景变化场景保持 ≥80% 成功率,基线显著下降

- 未见对象杂乱场景保持 78% 成功率

  • 运行时间:端到端控制周期 0.88s(Pi-0)/ 1.16s(Pi-0 FAST),约 0.9-1.1 Hz