一眼看懂
封面预览
系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展
- 系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展
- 解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
- 填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白
Card 01
研究单位
研究单位
- 哈尔滨工业大学(深圳)计算机科学与技术学院
- 作者:Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie
Card 02
论文概述
论文概述
- 系统综述基于大型视觉语言模型(Large VLMs)的视觉-语言-动作(VLA)模型在机器人操作领域的研究进展
- 解决传统机器人操作方法在非结构化环境中难以泛化、缺乏语义理解能力的问题
- 填补现有综述在大型VLM与机器人操作交叉领域的系统性研究空白
Card 03
核心贡献
核心贡献
- 首次提出面向机器人操作的大型VLA模型的清晰定义和系统分类法
- 建立两大架构范式:(1)单体模型(单系统/双系统设计)和(2)分层模型(规划器-执行器解耦)
- 深入分析模型性能增强(多模态感知、推理能力、泛化能力)与推理效率优化两大研究方向
- 系统梳理高级研究领域:强化学习、免训练方法、人体视频学习、世界模型集成
- 整合数据集与基准测试,识别未来发展方向(记忆机制、4D感知、高效适配、多智能体协作)
Card 04
方法描述
方法描述
- 单体模型:视觉感知、语言理解与动作生成在统一架构中完成
- 单系统:端到端自回归解码(如RT-2、OpenVLA)
- 双系统:VLM主干+动作专家级联/并行(如π₀、GR00T N1)
- 分层模型:显式解耦规划与执行,通过可解释中间表示(关键点、子任务、程序)连接
- 纯规划器(Planner-Only):生成结构化输出供下游策略执行
- 规划器+策略(Planner+Policy):联合优化规划与动作生成
- 关键技术:视觉指令微调、动作空间离散化/标记化、扩散模型/流匹配用于动作生成、动态推理加速
Card 05
数据集与资源
数据集与资源
- 真实世界机器人数据集:Open X-Embodiment(OXE)、BridgeData、ALOHA等
- 仿真数据集与基准:SIMPLER、ManiSkill、Isaac Sim等
- 人体行为数据集:用于从人类视频学习操作技能
- 具身智能数据集:融合视觉、语言、动作的多模态轨迹数据
- 代表性模型规模:OpenVLA(7B参数)、RT-2-X(55B参数)、GR00T N1(人形机器人专用)
Card 06
评估与结果
评估与结果
- 评估环境:真实机器人平台(Franka、UR5、Mobile ALOHA等)与仿真环境
- 主要指标:任务成功率、泛化能力(未见物体/指令/环境)、推理延迟、控制频率
- 关键结果:
- RT-2相比RT-1在新物体和未见指令上显著改进,具备基本推理能力
- OpenVLA在970k真实机器人演示上预训练,支持消费级硬件高效微调
- RoboMamba实现3倍以上推理加速,BitVLA将权重压缩至1比特
- 分层模型在长程任务和可解释性方面表现更优