一眼看懂
封面预览
研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中…
- 研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中…
- 提出Visual Attentive Prompting (VAP),一种无需训练的感知适配器,通过视觉提示引导冻结的VLA模型关注目标物体
- 提出个性化物体操作任务:VLA模型仅需少量参考图像即可识别并操作用户特定物体,无需针对每个物体重新训练
Card 01
研究单位
研究单位
- 论文作者:Sangoh Lee, Sangwoo Mo, Wook-Shin Han
Card 02
论文概述
论文概述
- 研究如何让Vision-Language-Action (VLA) 模型处理个性化指令(如"bring my cup"),即在视觉相似的物体中识别并操作用户特定的实例
- 提出Visual Attentive Prompting (VAP),一种无需训练的感知适配器,通过视觉提示引导冻结的VLA模型关注目标物体
Card 03
核心贡献
核心贡献
- 提出个性化物体操作任务:VLA模型仅需少量参考图像即可识别并操作用户特定物体,无需针对每个物体重新训练
- 设计Visual Attentive Prompting (VAP) 框架:结合参考图像的实例定位、视觉高亮提示和指令重写,实现训练自由的个性化
- 构建两个模拟基准测试(Personalized-SIMPLER、Personalized-VLABench)和真实世界基准,系统评估个性化操作能力
- 证明VAP在成功率(SR)和正确物体操作率(CMR)上显著优于通用策略和token学习基线
Card 04
方法描述
方法描述
- 两阶段推理流程:
- Grounding阶段:使用开放词汇检测(Grounding DINO)和嵌入匹配(DINOv2)定位参考图像中的目标物体,并通过SAM2进行跨帧跟踪
- Visual Prompting阶段:将定位的掩码叠加半透明高亮,同时将"my X"重写为"the [tint-color] X",为冻结VLA提供显式的像素级条件信号
- 关键技术:非参数视觉记忆、投票聚合的多参考匹配、实时掩码跟踪
Card 05
数据集与资源
数据集与资源
- 模拟数据集:Personalized-SIMPLER(1,685+96 episodes,Google Robot/WidowX)、Personalized-VLABench(250 episodes,Franka机械臂,3视角)
- 真实世界数据集:SO-101机械臂平台,8个日常类别,160 episodes,3个RGB相机
- 参考图像:每物体约5张参考图像
- 感知模型:Grounding DINO、SAM2、DINOv2
- 骨干VLA:π₀(SIMPLER实验)、π₀.₅(VLABench和真实世界实验)
Card 06
评估与结果
评估与结果
- 评估指标:Success Rate (SR)、Correct Movement Ratio (CMR)
- 关键实验结果:
- Personalized-SIMPLER (Google Robot):VAP将SR从8.5%提升至60.3%,CMR从10.5%提升至89.2%
- Personalized-SIMPLER (WidowX):VAP在6个任务中均达到最高SR,多个任务SR>90%
- Personalized-VLABench:VAP比最强基线提升36.8个百分点(leather bag任务SR 89.2% vs 52.4%)
- 真实世界:选择任务SR从30%提升至80%,pick-and-place任务SR从18.8%提升至58.8%
- 效率:SAM2跟踪每帧仅增加0.02秒(10%开销),满足实时控制需求