一眼看懂
封面预览
该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程
- 该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程
- 旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
- 构建了一个统一分类框架,将当前技术分为三个核心支柱:高效模型设计、高效训练和高效数据收集
Card 01
研究单位
研究单位
- 同济大学(Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Zheng Wang, Jingkuan Song, Heng Tao Shen)
- 西南交通大学(Ji Zhang)
- 电子科技大学(Lianli Gao)
- 特伦托大学(Nicu Sebe,意大利)
Card 02
论文概述
论文概述
- 该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程
- 旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
- 构建了一个统一分类框架,将当前技术分为三个核心支柱:高效模型设计、高效训练和高效数据收集
Card 03
核心贡献
核心贡献
- 开创性调查:首次专门针对高效VLAs进行全面综述,填补领域空白
- 新型分类体系:提出系统化分类法,将技术分为三个相互关联的支柱
- 未来路线图:总结关键挑战并提出有前景的研究方向
- 维护持续更新的项目页面:https://evla-survey.github.io/
Card 04
方法描述
方法描述
- 高效模型设计:包含高效架构(高效注意力机制如SARA-RT、Long-VLA;Transformer替代方案如Mamba;高效动作解码;轻量级组件;混合专家;分层系统)和模型压缩技术(层剪枝、量化、Token优化)
- 高效训练:涵盖高效预训练(数据高效预训练、高效动作表示)和高效后训练(监督微调、强化学习方法)
- 高效数据收集:包括人在环数据收集、模拟数据收集、互联网规模跨域数据利用、自探索数据收集、数据增强
Card 05
数据集与资源
数据集与资源
- 数据集:Open X-Embodiment (OXE)、BridgeData V2、DROID、EgoDex、AgiBot-World、RoboGen、RoboCasa、VLABench等
- 基准测试:RLBench、RoboTwin、Meta-World、LIBERO、CALVIN、SIMPLER、VLABench
Card 06
评估与结果
评估与结果
- 评估指标涵盖参数量、推理延迟、控制频率
- 关键效率指标比较:RT-2-PaLI-X (55B参数,330-1000ms延迟,1-3Hz);OpenVLA (7B参数,166ms延迟,6Hz);π0 (3.3B参数,73ms延迟,20/50Hz)
- 讨论了模型效率与性能之间的权衡,以及边缘设备部署的可行性