Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

论文详情

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

2025-08-18 · 原文 · 翻译 · 2508.13073

系统综述基于大型视觉语言模型（Large VLMs）的视觉-语言-动作（VLA）模型在机器人操作领域的研究进展解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白

4 分钟读完 6 张阅读卡哈尔滨工业大学（深圳）计算机科学与技术学院

一眼看懂封面预览

系统综述基于大型视觉语言模型（Large VLMs）的视觉-语言-动作（VLA）模型在机器人操作领域的研究进展

系统综述基于大型视觉语言模型（Large VLMs）的视觉-语言-动作（VLA）模型在机器人操作领域的研究进展
解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白

Card 01 研究单位

研究单位

哈尔滨工业大学（深圳）计算机科学与技术学院
作者：Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie

Card 02 论文概述

论文概述

系统综述基于大型视觉语言模型（Large VLMs）的视觉-语言-动作（VLA）模型在机器人操作领域的研究进展
解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白

Card 03 核心贡献

核心贡献

首次提出面向机器人操作的大型VLA模型的清晰定义和系统分类法
建立两大架构范式：（1）单体模型（单系统/双系统设计）和（2）分层模型（规划器-执行器解耦）
深入分析模型性能增强（多模态感知、推理能力、泛化能力）与推理效率优化两大研究方向
系统梳理高级研究领域：强化学习、免训练方法、人体视频学习、世界模型集成
整合数据集与基准测试，识别未来发展方向（记忆机制、4D感知、高效适配、多智能体协作）

Card 04 方法描述

方法描述

单体模型：视觉感知、语言理解与动作生成在统一架构中完成

- 单系统：端到端自回归解码（如RT-2、OpenVLA）

- 双系统：VLM主干+动作专家级联/并行（如π₀、GR00T N1）

分层模型：显式解耦规划与执行，通过可解释中间表示（关键点、子任务、程序）连接

- 纯规划器（Planner-Only）：生成结构化输出供下游策略执行

- 规划器+策略（Planner+Policy）：联合优化规划与动作生成

关键技术：视觉指令微调、动作空间离散化/标记化、扩散模型/流匹配用于动作生成、动态推理加速

Card 05 数据集与资源

数据集与资源

真实世界机器人数据集：Open X-Embodiment（OXE）、BridgeData、ALOHA等
仿真数据集与基准：SIMPLER、ManiSkill、Isaac Sim等
人体行为数据集：用于从人类视频学习操作技能
具身智能数据集：融合视觉、语言、动作的多模态轨迹数据
代表性模型规模：OpenVLA（7B参数）、RT-2-X（55B参数）、GR00T N1（人形机器人专用）

Card 06 评估与结果

评估与结果

评估环境：真实机器人平台（Franka、UR5、Mobile ALOHA等）与仿真环境
主要指标：任务成功率、泛化能力（未见物体/指令/环境）、推理延迟、控制频率
关键结果：

- RT-2相比RT-1在新物体和未见指令上显著改进，具备基本推理能力

- OpenVLA在970k真实机器人演示上预训练，支持消费级硬件高效微调

- RoboMamba实现3倍以上推理加速，BitVLA将权重压缩至1比特

- 分层模型在长程任务和可解释性方面表现更优