Vision-Language Models Unlock Task-Centric Latent Actions - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题，LAMs 无法区分可控制的变化与噪声

Card 01 研究单位

研究单位

Card 02 论文概述

研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题，LAMs 无法区分可控制的变化与噪声
提出利用 Vision-Language Models (VLMs) 的常识推理能力生成可提示表示（promptable representations），作为 LAM 训练的目标，从而在无监督方式下分离可控制特征与噪声
在 Distracting MetaWorld 基准上验证，使用 VLM 可提示表示作为目标可将下游任务成功率提升高达 6 倍

Card 03 核心贡献

Card 04 方法描述

Card 05 数据集与资源

数据集：MetaWorld Multi-Task 10 (MT10)，修改版添加 DAVIS 视频作为背景干扰物
每个任务收集 5,000 条轨迹，仅使用 <1%（16 条）带真实动作标签的轨迹进行最终微调
评估了 25+ 种 VLM，包括：Molmo, InstructBLIP, Gemma-3, Llama-3.2, Qwen2.5-VL, InternVL3, Phi-4, LLaVA-OneVision, Pixtral, GraspMolmo 等
对比基线：LAPO（无干扰）、OTTER、UniVLA、DINOv2、CLIP

Card 06 评估与结果

- 无干扰时 LAPO 表现良好，有干扰时成功率接近 0

- Molmo+VLM 在有干扰时成功率提升 6 倍

- Gemma-3 表现最差，InstructBLIP 优于较新的模型（如 Pixtral）

- 嵌入型 VLM（如 E5-V、VLM2Vec-V2）并未带来显著提升

- 语言条件化是关键：DINOv2 和 CLIP 表现最差，OTTER 使用 CLIP+text filtering 有所改善但仍不及 VLM

最佳配置：使用 "Do not describe background features. Focus on the robot arm" 类提示，聚合 next-to-last 层的 prompt embeddings