返回列表 VLA / Vision-Language-Action 每日论文卡
Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting
研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中…

论文详情

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

2025-12-23 · 原文 · 翻译 · 2512.20014

研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中识别并操作用户特定的实例 提出Visual Attentive Prompting (VAP),一种无需训练的感知适配器,通过视觉提示引导冻结的VLA模型关注目标物体

5 分钟读完 6 张阅读卡 论文作者:Sangoh Lee, Sangwoo Mo, Wook-Shin Han
一眼看懂 封面预览

研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中…

  • 研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中…
  • 提出Visual Attentive Prompting (VAP),一种无需训练的感知适配器,通过视觉提示引导冻结的VLA模型关注目标物体
  • 提出个性化物体操作任务:VLA模型仅需少量参考图像即可识别并操作用户特定物体,无需针对每个物体重新训练
Card 01 研究单位

研究单位

  • 论文作者:Sangoh Lee, Sangwoo Mo, Wook-Shin Han
Card 02 论文概述

论文概述

  • 研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中识别并操作用户特定的实例
  • 提出Visual Attentive Prompting (VAP),一种无需训练的感知适配器,通过视觉提示引导冻结的VLA模型关注目标物体
Card 03 核心贡献

核心贡献

  • 提出个性化物体操作任务:VLA模型仅需少量参考图像即可识别并操作用户特定物体,无需针对每个物体重新训练
  • 设计Visual Attentive Prompting (VAP) 框架:结合参考图像的实例定位、视觉高亮提示和指令重写,实现训练自由的个性化
  • 构建两个模拟基准测试(Personalized-SIMPLER、Personalized-VLABench)和真实世界基准,系统评估个性化操作能力
  • 证明VAP在成功率(SR)和正确物体操作率(CMR)上显著优于通用策略和token学习基线
Card 04 方法描述

方法描述

  • 两阶段推理流程

- Grounding阶段:使用开放词汇检测(Grounding DINO)和嵌入匹配(DINOv2)定位参考图像中的目标物体,并通过SAM2进行跨帧跟踪

- Visual Prompting阶段:将定位的掩码叠加半透明高亮,同时将"my X"重写为"the [tint-color] X",为冻结VLA提供显式的像素级条件信号

  • 关键技术:非参数视觉记忆、投票聚合的多参考匹配、实时掩码跟踪
Card 05 数据集与资源

数据集与资源

  • 模拟数据集:Personalized-SIMPLER(1,685+96 episodes,Google Robot/WidowX)、Personalized-VLABench(250 episodes,Franka机械臂,3视角)
  • 真实世界数据集:SO-101机械臂平台,8个日常类别,160 episodes,3个RGB相机
  • 参考图像:每物体约5张参考图像
  • 感知模型:Grounding DINO、SAM2、DINOv2
  • 骨干VLA:π₀(SIMPLER实验)、π₀.₅(VLABench和真实世界实验)
Card 06 评估与结果

评估与结果

  • 评估指标:Success Rate (SR)、Correct Movement Ratio (CMR)
  • 关键实验结果

- Personalized-SIMPLER (Google Robot):VAP将SR从8.5%提升至60.3%,CMR从10.5%提升至89.2%

- Personalized-SIMPLER (WidowX):VAP在6个任务中均达到最高SR,多个任务SR>90%

- Personalized-VLABench:VAP比最强基线提升36.8个百分点(leather bag任务SR 89.2% vs 52.4%)

- 真实世界:选择任务SR从30%提升至80%,pick-and-place任务SR从18.8%提升至58.8%

  • 效率:SAM2跟踪每帧仅增加0.02秒(10%开销),满足实时控制需求