返回列表 VLA / Vision-Language-Action 每日论文卡

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

论文详情

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

2025-08-18 · 原文 · 翻译 · 2508.13073

系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展 解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题 填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白

4 分钟读完 6 张阅读卡 哈尔滨工业大学(深圳)计算机科学与技术学院
一眼看懂 封面预览

系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展

  • 系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展
  • 解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
  • 填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白
Card 01 研究单位

研究单位

  • 哈尔滨工业大学(深圳)计算机科学与技术学院
  • 作者:Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie
Card 02 论文概述

论文概述

  • 系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展
  • 解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
  • 填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白
Card 03 核心贡献

核心贡献

  • 首次提出面向机器人操作的大型VLA模型的清晰定义和系统分类法
  • 建立两大架构范式:(1)单体模型(单系统/双系统设计)和(2)分层模型(规划器-执行器解耦)
  • 深入分析模型性能增强(多模态感知、推理能力、泛化能力)与推理效率优化两大研究方向
  • 系统梳理高级研究领域:强化学习、免训练方法、人体视频学习、世界模型集成
  • 整合数据集与基准测试,识别未来发展方向(记忆机制、4D感知、高效适配、多智能体协作)
Card 04 方法描述

方法描述

  • 单体模型:视觉感知、语言理解与动作生成在统一架构中完成

- 单系统:端到端自回归解码(如RT-2OpenVLA

- 双系统:VLM主干+动作专家级联/并行(如π₀GR00T N1

  • 分层模型:显式解耦规划与执行,通过可解释中间表示(关键点、子任务、程序)连接

- 纯规划器(Planner-Only):生成结构化输出供下游策略执行

- 规划器+策略(Planner+Policy):联合优化规划与动作生成

  • 关键技术:视觉指令微调、动作空间离散化/标记化、扩散模型/流匹配用于动作生成、动态推理加速
Card 05 数据集与资源

数据集与资源

  • 真实世界机器人数据集:Open X-Embodiment(OXE)、BridgeData、ALOHA等
  • 仿真数据集与基准:SIMPLER、ManiSkill、Isaac Sim等
  • 人体行为数据集:用于从人类视频学习操作技能
  • 具身智能数据集:融合视觉、语言、动作的多模态轨迹数据
  • 代表性模型规模:OpenVLA(7B参数)、RT-2-X(55B参数)、GR00T N1(人形机器人专用)
Card 06 评估与结果

评估与结果

  • 评估环境:真实机器人平台(Franka、UR5、Mobile ALOHA等)与仿真环境
  • 主要指标:任务成功率、泛化能力(未见物体/指令/环境)、推理延迟、控制频率
  • 关键结果

- RT-2相比RT-1在新物体和未见指令上显著改进,具备基本推理能力

- OpenVLA在970k真实机器人演示上预训练,支持消费级硬件高效微调

- RoboMamba实现3倍以上推理加速,BitVLA将权重压缩至1比特

- 分层模型在长程任务可解释性方面表现更优