返回列表 VLA / Vision-Language-Action 每日论文卡
A Survey on Efficient Vision-Language-Action Models
该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程

论文详情

A Survey on Efficient Vision-Language-Action Models

2025-10-27 · 原文 · 翻译 · 2510.24795

该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程 旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题 构建了一个统一分类框架,将当前技术分为三个核心支柱:高效模型设计、高效训练和高效数据收集

4 分钟读完 6 张阅读卡 同济大学(Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zha…
一眼看懂 封面预览

该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程

  • 该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程
  • 旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
  • 构建了一个统一分类框架,将当前技术分为三个核心支柱:高效模型设计、高效训练和高效数据收集
Card 01 研究单位

研究单位

  • 同济大学(Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Zheng Wang, Jingkuan Song, Heng Tao Shen)
  • 西南交通大学(Ji Zhang)
  • 电子科技大学(Lianli Gao)
  • 特伦托大学(Nicu Sebe,意大利)
Card 02 论文概述

论文概述

  • 该论文是首个全面综述高效视觉语言动作模型(Efficient VLAs)的调查研究,涵盖整个"模型-训练-数据"流程
  • 旨在解决基础VLA模型面临的高计算成本、高数据需求和推理延迟等关键瓶颈问题
  • 构建了一个统一分类框架,将当前技术分为三个核心支柱:高效模型设计高效训练高效数据收集
Card 03 核心贡献

核心贡献

  • 开创性调查:首次专门针对高效VLAs进行全面综述,填补领域空白
  • 新型分类体系:提出系统化分类法,将技术分为三个相互关联的支柱
  • 未来路线图:总结关键挑战并提出有前景的研究方向
  • 维护持续更新的项目页面:https://evla-survey.github.io/
Card 04 方法描述

方法描述

  • 高效模型设计:包含高效架构(高效注意力机制如SARA-RT、Long-VLA;Transformer替代方案如Mamba;高效动作解码;轻量级组件;混合专家;分层系统)和模型压缩技术(层剪枝、量化、Token优化)
  • 高效训练:涵盖高效预训练(数据高效预训练、高效动作表示)和高效后训练(监督微调、强化学习方法)
  • 高效数据收集:包括人在环数据收集、模拟数据收集、互联网规模跨域数据利用、自探索数据收集、数据增强
Card 05 数据集与资源

数据集与资源

  • 数据集:Open X-Embodiment (OXE)、BridgeData V2、DROID、EgoDex、AgiBot-World、RoboGen、RoboCasa、VLABench等
  • 基准测试:RLBench、RoboTwin、Meta-World、LIBERO、CALVIN、SIMPLER、VLABench
Card 06 评估与结果

评估与结果

  • 评估指标涵盖参数量、推理延迟、控制频率
  • 关键效率指标比较:RT-2-PaLI-X (55B参数,330-1000ms延迟,1-3Hz);OpenVLA (7B参数,166ms延迟,6Hz);π0 (3.3B参数,73ms延迟,20/50Hz)
  • 讨论了模型效率与性能之间的权衡,以及边缘设备部署的可行性