返回列表 VLA / Vision-Language-Action 每日论文卡
Vision-Language Models Unlock Task-Centric Latent Actions
研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题,LAMs 无法区分可控制的变化与噪声

论文详情

Vision-Language Models Unlock Task-Centric Latent Actions

2026-01-30 · 原文 · 翻译 · 2601.22714

研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题,LAMs 无法区分可控制的变化与噪声 提出利用 Vision-Language Models (VLMs) 的常识推理能力生成可提示表示(promptable representations),作为 LAM 训练的目标,从而在无监督方式下分离可控制特征与噪声 在 Distracting MetaWorld 基准上验证…

6 分钟读完 6 张阅读卡 作者 affiliations 在 HTML 中未明确列出具体机构名称,仅列出作者姓名
一眼看懂 封面预览

研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题,LAMs 无法区分可控制的变化与噪声

  • 研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题,LAMs 无法区分可控制的变化与噪声
  • 提出利用 Vision-Language Models (VLMs) 的常识推理能力生成可提示表示(promptable representa…
  • 在 Distracting MetaWorld 基准上验证,使用 VLM 可提示表示作为目标可将下游任务成功率提升高达 6 倍
Card 01 研究单位

研究单位

  • 作者 affiliations 在 HTML 中未明确列出具体机构名称,仅列出作者姓名
Card 02 论文概述

论文概述

  • 研究解决 Latent Action Models (LAMs) 在存在动作相关干扰物时失败的问题,LAMs 无法区分可控制的变化与噪声
  • 提出利用 Vision-Language Models (VLMs) 的常识推理能力生成可提示表示(promptable representations),作为 LAM 训练的目标,从而在无监督方式下分离可控制特征与噪声
  • 在 Distracting MetaWorld 基准上验证,使用 VLM 可提示表示作为目标可将下游任务成功率提升高达 6 倍
Card 03 核心贡献

核心贡献

  • 发现并验证了 LAMs 在存在动作相关干扰物(如背景视频干扰)时完全失效的问题
  • 提出利用 VLM 的可提示表示作为 FDM (Forward Dynamics Model) 的目标,实现无监督地过滤干扰物
  • 进行了大规模基准测试(29,000+ 实验),评估了 25+ 种不同 VLM 的有效性,发现 Molmo 表现最佳
  • 证明了语言条件化的重要性:VLM 方法显著优于 DINOv2 和 CLIP 等自监督方法
  • 在无任何真实动作监督的情况下,使用 VLM 表示可将 latent action 质量提升到接近无干扰时的水平
Card 04 方法描述

方法描述

  • 采用三阶段训练流程:(1) 预训练 LAM,(2) 在 latent actions 上训练行为克隆 (BC),(3) 使用少量真实动作标签训练解码器
  • 使用 LAPO 架构(无量化),结合 IDM(逆动态模型)和 FDM(正向动态模型)
  • 将 VLM 生成的语义表示作为 FDM 的预测目标,而非原始像素图像
  • 使用多种提示策略,包括让 VLM 忽略背景、聚焦机械臂等任务相关特征
  • 探索了不同 VLM 的 embedding 层选择、聚合策略(mean pooling 或 last token)等超参数
Card 05 数据集与资源

数据集与资源

  • 数据集:MetaWorld Multi-Task 10 (MT10),修改版添加 DAVIS 视频作为背景干扰物
  • 每个任务收集 5,000 条轨迹,仅使用 <1%(16 条)带真实动作标签的轨迹进行最终微调
  • 评估了 25+ 种 VLM,包括:Molmo, InstructBLIP, Gemma-3, Llama-3.2, Qwen2.5-VL, InternVL3, Phi-4, LLaVA-OneVision, Pixtral, GraspMolmo 等
  • 对比基线:LAPO(无干扰)、OTTER、UniVLA、DINOv2、CLIP
Card 06 评估与结果

评估与结果

  • 评估指标:Action Probe(MSE,反映 latent actions 对真实动作的编码质量)和 Success Rate(任务成功率)
  • 主要发现

- 无干扰时 LAPO 表现良好,有干扰时成功率接近 0

- Molmo+VLM 在有干扰时成功率提升 6 倍

- Gemma-3 表现最差,InstructBLIP 优于较新的模型(如 Pixtral)

- 嵌入型 VLM(如 E5-V、VLM2Vec-V2)并未带来显著提升

- 语言条件化是关键:DINOv2 和 CLIP 表现最差,OTTER 使用 CLIP+text filtering 有所改善但仍不及 VLM

  • 最佳配置:使用 "Do not describe background features. Focus on the robot arm" 类提示,聚合 next-to-last 层的 prompt embeddings