返回列表 VLA / Vision-Language-Action 每日论文卡
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛…

论文详情

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

2025-09-11 · 原文 · 翻译 · 2509.09372

提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛预训练的依赖 系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件,发现关键设计原则,提出带有 Bridge Attention 的轻量级策略模块 解决当前 VLA 模型面临的核心瓶颈:依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低

5 分钟读完 6 张阅读卡 北京邮电大学 (Beijing University of Posts and Telecommuni…
一眼看懂 封面预览

提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛…

  • 提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛…
  • 系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件,发现关键设计原则,提出带有 Bridge Attention 的轻量…
  • 解决当前 VLA 模型面临的核心瓶颈:依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低
Card 01 研究单位

研究单位

  • 北京邮电大学 (Beijing University of Posts and Telecommunications)
  • 西湖大学 (Westlake University)
  • 浙江大学 (Zhejiang University)
  • OpenHelix Team
  • State Key Laboratory of Networking and Switching Technology
  • 香港科技大学(广州) (The Hong Kong University of Science and Technology (Guangzhou))
Card 02 论文概述

论文概述

  • 提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛预训练的依赖
  • 系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件,发现关键设计原则,提出带有 Bridge Attention 的轻量级策略模块
  • 解决当前 VLA 模型面临的核心瓶颈:依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低
Card 03 核心贡献

核心贡献

  • 首次系统分析桥接范式对动作生成的影响,给出 VLA 模型设计的关键发现
  • 提出 Bridge Attention 机制,通过可学习的注入比例自适应融合多层级 Raw 特征和 ActionQuery 特征
  • 仅用 0.5B 参数的骨干网络即可达到 SOTA 级性能,无需机器人数据预训练
  • 训练成本极低:单张消费级 GPU 仅需 8 小时即可完成训练
  • 推理速度达到 219.2 Hz,延迟仅 0.0365 秒,为当前报告的最快推理速度
Card 04 方法描述

方法描述

  • 采用 Prismatic-VLM 架构作为骨干,使用 Qwen2.5-0.5B 作为默认语言模型
  • 关键组件 Bridge Attention:包含两个交叉注意力(分别处理 Raw 特征和 ActionQuery 特征)和一个自注意力
  • 引入可学习参数 Ratio g(经 tanh 激活)动态调节 Raw 特征的注入程度,确保训练稳定性
  • 策略网络采用 L1-based 架构(而非 DiT),参数量仅 97M
  • 输入包含:第三视角图像、夹爪图像、指令、ActionQuery 和本体感知状态
Card 05 数据集与资源

数据集与资源

  • LIBERO 基准测试(Spatial、Object、Goal、Long 四个套件)
  • CALVIN ABC→D 零样本泛化基准
  • 真实世界机器人任务数据
  • 模型规模:0.5B 参数骨干(对比 7B 参数的 OpenVLA)
  • 训练资源:4 张 NVIDIA H100 GPU,单卡消费级 GPU 可完成训练
Card 06 评估与结果

评估与结果

  • LIBERO-Long 成功率:95.0%,相比 OpenVLA-OFT 提升 9.2%(使用 Qwen2.5-0.5B 骨干)
  • 骨干网络冻结时仍达 86.4% 成功率,显著优于 SmolVLA (77.0%) 和 OpenVLA-OFT (0%)
  • CALVIN ABC→D 平均完成长度:4.10,与 OpenVLA-OFT 持平,远超其他方法
  • 推理吞吐量:219.2 Hz,是 OpenVLA 的 52 倍,OpenVLA-OFT 的 3 倍
  • 在 LIBERO 四个套件上平均成功率达 97.3%VLA-Adapter-Pro 版本进一步提升至 98.5%