一眼看懂
封面预览
提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理…
- 提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理…
- 针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式,引入以对象为中心的几何感知感知模块,无需合成杂乱数据或辅助感知目…
- 提出 OBEYED-VLA 框架,为 VLA 配备对象几何感知模块,提供语义相关且空间感知的观测输入
Card 01
研究单位
研究单位
- University of Arkansas, Fayetteville, AR, USA(Khoa Vo, Taisei Hanyu, Yuki Ikebe, Trong Thang Pham, Anthony Gunderman, Chase Rainwater, Ngan Le)
- National University of Singapore, Singapore(Nhat Chung)
- TU Wien, Vienna, Austria(Minh Nhat Vu)
- Max Planck Research School for Intelligent Systems and University of Stuttgart, Stuttgart, Germany(Duy Nguyen Ho Minh)
- University of Liverpool, Liverpool, U.K.(Anh Nguyen)
Card 02
论文概述
论文概述
- 提出 OBEYED-VLA(OBject-centric and gEometrY groundED VLA)框架,通过显式解耦感知与动作推理,解决现有 Vision-Language-Action(VLA)模型在杂乱场景中视觉-语言对齐退化的问题
- 针对现有 VLA 模型在杂乱环境中易分心、过度抓取、对背景变化敏感等失败模式,引入以对象为中心的几何感知感知模块,无需合成杂乱数据或辅助感知目标即可增强鲁棒性
Card 03
核心贡献
核心贡献
- 提出 OBEYED-VLA 框架,为 VLA 配备对象几何感知模块,提供语义相关且空间感知的观测输入
- 在真实世界实验中,OBEYED-VLA 在多种干扰设置和环境杂乱挑战下展现出优于强 VLA 基线的鲁棒性,尽管仅在干净单对象演示上微调
- 证明 OBEYED-VLA 能有效泛化到未见过的目标对象和新场景组合,保持可靠的视觉运动性能
- 通过消融研究验证两阶段对象中心感知和显式几何感知的关键作用
Card 04
方法描述
方法描述
- 感知感知模块:包含两个互补阶段
- 对象中心感知:使用 Qwen3-VL 通过 set-of-mark 提示机制,在基座视图和腕部视图之间进行跨视图区域匹配,选择与任务指令相关的对象区域
- 几何感知:使用 Depth Anything v2 将 RGB 转换为深度图,强调对象的 3D 结构而非外观
- 动作推理:将感知感知后的视觉输入(掩码深度图)与语言指令、机器人本体感知一起输入预训练的 VLA 策略(Pi-0 或 Pi-0 FAST),仅微调 VLA 参数,感知模块保持冻结
- 采用 YOLO11-Seg 进行对象分割,在混合数据集上微调以平衡效率与准确性
Card 05
数据集与资源
数据集与资源
- 训练数据:2000 个真实世界遥操作演示,包含 8 种杂货对象(spice bottle, green coffee bag, mustard bottle, ketchup bottle, mayonnaise bottle, food can, spam tin, green oil bottle),仅在干净单对象场景中收集
- 测试对象:7 种未见过的杂货对象用于泛化测试
- 模型规模:VLM 使用 Qwen3-VL 8B-Instruct;VLA 使用 Pi-0 和 Pi-0 FAST
- 训练资源:4 块 NVIDIA A6000 GPU,使用 LoRA 微调 50K 迭代,学习率 1×10⁻⁵,批次大小 128
- 推理资源:2 块 A6000 GPU 部署 VLM,单块 GPU 进行策略推理
Card 06
评估与结果
评估与结果
- 评估环境:真实世界 UR10e 机器人平台,配备 Robotiq 2F-85 平行爪夹具,基座视图和腕部视图双相机,10Hz 控制频率
- 评估基准:
- 干扰对象任务(0/1/4/7 个干扰物)
- 缺失目标拒绝任务(absent-target rejection)
- 空间推理任务("left object" 等关系指令)
- 背景变化鲁棒性(桌布、背景幕布、彩色纸张等)
- 未见对象杂乱场景操作
- 主要指标:成功率(%)及 95% 置信区间
- 关键结果:
- 在 4 个干扰物场景下,OBEYED-VLA 保持约 85% 成功率,而基线模型降至 10% 以下,平均提升 4 倍
- 缺失目标拒绝任务达到约 95% 成功率,基线仅 10-40%
- 空间推理任务达到约 75% 成功率,比最佳基线提升 40 个百分点
- 背景变化场景保持 ≥80% 成功率,基线显著下降
- 未见对象杂乱场景保持 78% 成功率
- 运行时间:端到端控制周期 0.88s(Pi-0)/ 1.16s(Pi-0 FAST),约 0.9-1.1 Hz