该论文是首个全面综述高效视觉语言动作模型（Efficient VLAs）的调查研究，涵盖整个"模型-训练-数据"流程

论文详情

A Survey on Efficient Vision-Language-Action Models

2025-10-27 · 原文 · 翻译 · 2510.24795

该论文是首个全面综述高效视觉语言动作模型（Efficient VLAs）的调查研究，涵盖整个"模型-训练-数据"流程旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题构建了一个统一分类框架，将当前技术分为三个核心支柱：高效模型设计、高效训练和高效数据收集

4 分钟读完 6 张阅读卡同济大学（Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zha…

一眼看懂封面预览

该论文是首个全面综述高效视觉语言动作模型（Efficient VLAs）的调查研究，涵盖整个"模型-训练-数据"流程

该论文是首个全面综述高效视觉语言动作模型（Efficient VLAs）的调查研究，涵盖整个"模型-训练-数据"流程
旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
构建了一个统一分类框架，将当前技术分为三个核心支柱：高效模型设计、高效训练和高效数据收集

Card 01 研究单位

研究单位

同济大学（Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Zheng Wang, Jingkuan Song, Heng Tao Shen）
西南交通大学（Ji Zhang）
电子科技大学（Lianli Gao）
特伦托大学（Nicu Sebe，意大利）

Card 02 论文概述

论文概述

该论文是首个全面综述高效视觉语言动作模型（Efficient VLAs）的调查研究，涵盖整个"模型-训练-数据"流程
旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
构建了一个统一分类框架，将当前技术分为三个核心支柱：高效模型设计、高效训练和高效数据收集

Card 03 核心贡献

核心贡献

开创性调查：首次专门针对高效VLAs进行全面综述，填补领域空白
新型分类体系：提出系统化分类法，将技术分为三个相互关联的支柱
未来路线图：总结关键挑战并提出有前景的研究方向
维护持续更新的项目页面：https://evla-survey.github.io/

Card 04 方法描述

方法描述

高效模型设计：包含高效架构（高效注意力机制如SARA-RT、Long-VLA；Transformer替代方案如Mamba；高效动作解码；轻量级组件；混合专家；分层系统）和模型压缩技术（层剪枝、量化、Token优化）
高效训练：涵盖高效预训练（数据高效预训练、高效动作表示）和高效后训练（监督微调、强化学习方法）
高效数据收集：包括人在环数据收集、模拟数据收集、互联网规模跨域数据利用、自探索数据收集、数据增强

Card 05 数据集与资源

数据集与资源

数据集：Open X-Embodiment (OXE)、BridgeData V2、DROID、EgoDex、AgiBot-World、RoboGen、RoboCasa、VLABench等
基准测试：RLBench、RoboTwin、Meta-World、LIBERO、CALVIN、SIMPLER、VLABench

Card 06 评估与结果

评估与结果

评估指标涵盖参数量、推理延迟、控制频率
关键效率指标比较：RT-2-PaLI-X (55B参数，330-1000ms延迟，1-3Hz)；OpenVLA (7B参数，166ms延迟，6Hz)；π0 (3.3B参数，73ms延迟，20/50Hz)
讨论了模型效率与性能之间的权衡，以及边缘设备部署的可行性