一眼看懂
封面预览
提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛…
- 提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛…
- 系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件,发现关键设计原则,提出带有 Bridge Attention 的轻量…
- 解决当前 VLA 模型面临的核心瓶颈:依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低
Card 01
研究单位
研究单位
- 北京邮电大学 (Beijing University of Posts and Telecommunications)
- 西湖大学 (Westlake University)
- 浙江大学 (Zhejiang University)
- OpenHelix Team
- State Key Laboratory of Networking and Switching Technology
- 香港科技大学(广州) (The Hong Kong University of Science and Technology (Guangzhou))
Card 02
论文概述
论文概述
- 提出 VLA-Adapter,一种用于微型规模视觉-语言-动作 (VLA) 模型的新型范式,旨在减少对大规模视觉-语言模型 (VLM) 和广泛预训练的依赖
- 系统分析了从视觉-语言 (VL) 表示到动作 (A) 空间桥接的各种条件,发现关键设计原则,提出带有 Bridge Attention 的轻量级策略模块
- 解决当前 VLA 模型面临的核心瓶颈:依赖大规模 VLM、微调速度慢、GPU 内存消耗高、推理效率低
Card 03
核心贡献
核心贡献
- 首次系统分析桥接范式对动作生成的影响,给出 VLA 模型设计的关键发现
- 提出 Bridge Attention 机制,通过可学习的注入比例自适应融合多层级 Raw 特征和 ActionQuery 特征
- 仅用 0.5B 参数的骨干网络即可达到 SOTA 级性能,无需机器人数据预训练
- 训练成本极低:单张消费级 GPU 仅需 8 小时即可完成训练
- 推理速度达到 219.2 Hz,延迟仅 0.0365 秒,为当前报告的最快推理速度
Card 04
方法描述
方法描述
- 采用 Prismatic-VLM 架构作为骨干,使用 Qwen2.5-0.5B 作为默认语言模型
- 关键组件 Bridge Attention:包含两个交叉注意力(分别处理 Raw 特征和 ActionQuery 特征)和一个自注意力
- 引入可学习参数 Ratio g(经 tanh 激活)动态调节 Raw 特征的注入程度,确保训练稳定性
- 策略网络采用 L1-based 架构(而非 DiT),参数量仅 97M
- 输入包含:第三视角图像、夹爪图像、指令、ActionQuery 和本体感知状态
Card 05
数据集与资源
数据集与资源
- LIBERO 基准测试(Spatial、Object、Goal、Long 四个套件)
- CALVIN ABC→D 零样本泛化基准
- 真实世界机器人任务数据
- 模型规模:0.5B 参数骨干(对比 7B 参数的 OpenVLA)
- 训练资源:4 张 NVIDIA H100 GPU,单卡消费级 GPU 可完成训练
Card 06
评估与结果
评估与结果
- LIBERO-Long 成功率:95.0%,相比 OpenVLA-OFT 提升 9.2%(使用 Qwen2.5-0.5B 骨干)
- 骨干网络冻结时仍达 86.4% 成功率,显著优于 SmolVLA (77.0%) 和 OpenVLA-OFT (0%)
- CALVIN ABC→D 平均完成长度:4.10,与 OpenVLA-OFT 持平,远超其他方法
- 推理吞吐量:219.2 Hz,是 OpenVLA 的 52 倍,OpenVLA-OFT 的 3 倍
- 在 LIBERO 四个套件上平均成功率达 97.3%,VLA-Adapter-Pro 版本进一步提升至 98.5%