Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

一眼看懂封面预览

研究如何让Vision-Language-Action (VLA) 模型处理个性化指令（如"bring my cup"），即在视觉相似的物体中…

Card 01 研究单位

研究单位

Card 02 论文概述

研究如何让Vision-Language-Action (VLA) 模型处理个性化指令（如"bring my cup"），即在视觉相似的物体中识别并操作用户特定的实例
提出Visual Attentive Prompting (VAP)，一种无需训练的感知适配器，通过视觉提示引导冻结的VLA模型关注目标物体

Card 03 核心贡献

提出个性化物体操作任务：VLA模型仅需少量参考图像即可识别并操作用户特定物体，无需针对每个物体重新训练
设计Visual Attentive Prompting (VAP) 框架：结合参考图像的实例定位、视觉高亮提示和指令重写，实现训练自由的个性化
构建两个模拟基准测试（Personalized-SIMPLER、Personalized-VLABench）和真实世界基准，系统评估个性化操作能力
证明VAP在成功率（SR）和正确物体操作率（CMR）上显著优于通用策略和token学习基线

Card 04 方法描述

- Grounding阶段：使用开放词汇检测（Grounding DINO）和嵌入匹配（DINOv2）定位参考图像中的目标物体，并通过SAM2进行跨帧跟踪

- Visual Prompting阶段：将定位的掩码叠加半透明高亮，同时将"my X"重写为"the [tint-color] X"，为冻结VLA提供显式的像素级条件信号

Card 05 数据集与资源

模拟数据集：Personalized-SIMPLER（1,685+96 episodes，Google Robot/WidowX）、Personalized-VLABench（250 episodes，Franka机械臂，3视角）
真实世界数据集：SO-101机械臂平台，8个日常类别，160 episodes，3个RGB相机
参考图像：每物体约5张参考图像
感知模型：Grounding DINO、SAM2、DINOv2
骨干VLA：π₀（SIMPLER实验）、π₀.₅（VLABench和真实世界实验）

Card 06 评估与结果

- Personalized-SIMPLER (Google Robot)：VAP将SR从8.5%提升至60.3%，CMR从10.5%提升至89.2%

- Personalized-SIMPLER (WidowX)：VAP在6个任务中均达到最高SR，多个任务SR>90%

- Personalized-VLABench：VAP比最强基线提升36.8个百分点（leather bag任务SR 89.2% vs 52.4%）

- 真实世界：选择任务SR从30%提升至80%，pick-and-place任务SR从18.8%提升至58.8%