提出 VLA-Adapter，一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式，旨在减少对大规模视觉-语言模型 (VLM) 和广泛…

论文详情

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

2025-09-11 · 原文 · 翻译 · 2509.09372

提出 VLA-Adapter，一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式，旨在减少对大规模视觉-语言模型 (VLM) 和广泛预训练的依赖系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件，发现关键设计原则，提出带有 Bridge Attention 的轻量级策略模块解决当前 VLA 模型面临的核心瓶颈：依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低

5 分钟读完 6 张阅读卡北京邮电大学 (Beijing University of Posts and Telecommuni…

一眼看懂封面预览

提出 VLA-Adapter，一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式，旨在减少对大规模视觉-语言模型 (VLM) 和广泛…

提出 VLA-Adapter，一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式，旨在减少对大规模视觉-语言模型 (VLM) 和广泛…
系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件，发现关键设计原则，提出带有 Bridge Attention 的轻量…
解决当前 VLA 模型面临的核心瓶颈：依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低

Card 01 研究单位

研究单位

北京邮电大学 (Beijing University of Posts and Telecommunications)
西湖大学 (Westlake University)
浙江大学 (Zhejiang University)
OpenHelix Team
State Key Laboratory of Networking and Switching Technology
香港科技大学（广州） (The Hong Kong University of Science and Technology (Guangzhou))

Card 02 论文概述

论文概述

提出 VLA-Adapter，一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式，旨在减少对大规模视觉-语言模型 (VLM) 和广泛预训练的依赖
系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件，发现关键设计原则，提出带有 Bridge Attention 的轻量级策略模块
解决当前 VLA 模型面临的核心瓶颈：依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低

Card 03 核心贡献

核心贡献

首次系统分析桥接范式对动作生成的影响，给出 VLA 模型设计的关键发现
提出 Bridge Attention 机制，通过可学习的注入比例自适应融合多层级 Raw 特征和 ActionQuery 特征
仅用 0.5B 参数的骨干网络即可达到 SOTA 级性能，无需机器人数据预训练
训练成本极低：单张消费级 GPU 仅需 8 小时即可完成训练
推理速度达到 219.2 Hz，延迟仅 0.0365 秒，为当前报告的最快推理速度

Card 04 方法描述

方法描述

采用 Prismatic-VLM 架构作为骨干，使用 Qwen2.5-0.5B 作为默认语言模型
关键组件 Bridge Attention：包含两个交叉注意力（分别处理 Raw 特征和 ActionQuery 特征）和一个自注意力
引入可学习参数 Ratio g（经 tanh 激活）动态调节 Raw 特征的注入程度，确保训练稳定性
策略网络采用 L1-based 架构（而非 DiT），参数量仅 97M
输入包含：第三视角图像、夹爪图像、指令、ActionQuery 和本体感知状态

Card 05 数据集与资源

数据集与资源

LIBERO 基准测试（Spatial、Object、Goal、Long 四个套件）
CALVIN ABC→D 零样本泛化基准
真实世界机器人任务数据
模型规模：0.5B 参数骨干（对比 7B 参数的 OpenVLA）
训练资源：4 张 NVIDIA H100 GPU，单卡消费级 GPU 可完成训练

Card 06 评估与结果

评估与结果

LIBERO-Long 成功率：95.0%，相比 OpenVLA-OFT 提升 9.2%（使用 Qwen2.5-0.5B 骨干）
骨干网络冻结时仍达 86.4% 成功率，显著优于 SmolVLA (77.0%) 和 OpenVLA-OFT (0%)
CALVIN ABC→D 平均完成长度：4.10，与 OpenVLA-OFT 持平，远超其他方法
推理吞吐量：219.2 Hz，是 OpenVLA 的 52 倍，OpenVLA-OFT 的 3 倍
在 LIBERO 四个套件上平均成功率达 97.3%，VLA-Adapter-Pro 版本进一步提升至 98.5%