返回列表 VLA / Vision-Language-Action 每日论文卡
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
论文重新审视了Vision-Language-Action (VLA) 模型中基础Vision-Language Model (VLM)的选择…

论文详情

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models

2026-01-06 · 原文 · 翻译 · 2601.03309

论文重新审视了Vision-Language-Action (VLA) 模型中基础Vision-Language Model (VLM)的选择和能力如何影响下游VLA策略的性能 提出了 VLM4VLA 框架,这是一个最小化的适配管道,仅引入不到1%的新参数即可将通用VLM转换为VLA策略 通过在三个基准测试(Calvin、SimplerEnv、Libero)上的大规模实证研究,揭示了VLM能力与VLA性能之间存在显…

5 分钟读完 6 张阅读卡 清华大学交叉信息研究院
一眼看懂 封面预览

论文重新审视了Vision-Language-Action (VLA) 模型中基础Vision-Language Model (VLM)的选择…

  • 论文重新审视了Vision-Language-Action (VLA) 模型中基础Vision-Language Model (VLM)的选择…
  • 提出了 VLM4VLA 框架,这是一个最小化的适配管道,仅引入不到1%的新参数即可将通用VLM转换为VLA策略
  • 通过在三个基准测试(Calvin、SimplerEnv、Libero)上的大规模实证研究,揭示了VLM能力与VLA性能之间存在显著差距
Card 01 研究单位

研究单位

  • 清华大学交叉信息研究院
  • 阿里云通义千问团队
Card 02 论文概述

论文概述

  • 论文重新审视了Vision-Language-Action (VLA) 模型中基础Vision-Language Model (VLM)的选择和能力如何影响下游VLA策略的性能
  • 提出了 VLM4VLA 框架,这是一个最小化的适配管道,仅引入不到1%的新参数即可将通用VLM转换为VLA策略
  • 通过在三个基准测试(Calvin、SimplerEnv、Libero)上的大规模实证研究,揭示了VLM能力与VLA性能之间存在显著差距
Card 03 核心贡献

核心贡献

  • 设计了公平、可复现的VLA评估框架VLM4VLA,使用简单MLP头和L1/L2损失,避免扩散损失的随机性
  • 在三种环境下评估了24种不同的VLM(包括Qwen2.5VL、Qwen3VL、Paligemma、Kosmos-2系列),参数量从1B到31B
  • 发现VLM的通用能力(VQA基准测试成绩)是下游任务表现的不良预测因子,不同基准测试结果之间存在不一致性
  • 发现针对特定具身任务的辅助微调(如Robopoint、Vica-332k、Robo2vlm等)并不能提升VLA性能
  • 通过模态级消融实验,识别出视觉编码器而非语言组件是主要性能瓶颈,并验证了注入控制相关信息到视觉编码器可获得一致性收益
Card 04 方法描述

方法描述

  • 网络设计:引入可学习的动作查询令牌(ActionQuery),从VLM中提取具身相关知识,使用小型MLP策略头将令牌表示解码为动作块
  • 训练目标:采用最大似然模仿学习目标,使用Huber损失优化末端执行器相对位置,二元交叉熵损失优化末端执行器离散状态
  • 输入处理:统一使用224×224分辨率的单帧图像作为视觉输入,不使用本体感知状态信息
  • 训练设置:全参数微调VLM所有组件(视觉编码器、词嵌入、LLM和策略头)
Card 05 数据集与资源

数据集与资源

  • 评估基准:Calvin ABC-D、SimplerEnv Bridge、Libero-Long (-10)
  • 测试VLM模型:Qwen2.5VL-3B/7B、Qwen3VL-2B/4B/8B/30B-A3B、Paligemma-1/2、Kosmos-2
  • 模型规模:1.7B至31.1B参数
  • 训练硬件:8块NVIDIA A100 GPU(Qwen3VL-30B使用32块)
Card 06 评估与结果

评估与结果

  • Calvin基准:QwenVL系列表现最佳,Qwen3VL-2B达到4.142平均完成任务数,与先进VLA模型相当
  • SimplerEnv Bridge:Kosmos-2(最小模型)达到最高成功率60.4%,Paligemma系列表现优于Qwen2.5VL
  • Libero-Long:ThinkAct(使用本体感知状态)达到70.9%显著领先
  • 关键发现:VLM通用能力与VLA性能相关性低(Calvin与VQA相关,但Simpler/Libero无明显相关);冻结视觉编码器导致性能大幅下降(Qwen2.5VL-7B下降1.234),而冻结词嵌入几乎无影响;视觉编码器微调对控制性能至关重要,存在明显的视觉-语言任务与低级动作控制之间的语义鸿沟