返回列表 VLA / Vision-Language-Action 每日论文卡
An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
本文是一篇关于Vision-Language-Action (VLA) 模型的综合性综述论文,系统性地分析了VLA领域从基础模块到核心挑战的完…

论文详情

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

2025-12-12 · 原文 · 翻译 · 2512.11362

本文是一篇关于Vision-Language-Action (VLA) 模型的综合性综述论文,系统性地分析了VLA领域从基础模块到核心挑战的完整研究图景 论文采用独特的金字塔结构组织内容:从Basic Modules(基础模块)出发,经过Evolution & Milestones(发展历程与里程碑),最终深入探讨Challenges & Solutions & Future Directions(挑战、解决方案与…

8 分钟读完 6 张阅读卡 IROOTECH TECHNOLOGY
一眼看懂 封面预览

本文是一篇关于Vision-Language-Action (VLA) 模型的综合性综述论文,系统性地分析了VLA领域从基础模块到核心挑战的完…

  • 本文是一篇关于Vision-Language-Action (VLA) 模型的综合性综述论文,系统性地分析了VLA领域从基础模块到核心挑战的完…
  • 论文采用独特的金字塔结构组织内容:从Basic Modules(基础模块)出发,经过Evolution & Milestones(发展历程与里…
  • 旨在解决现有综述的两个关键缺口:将研究挑战置于核心位置进行深度结构化分析,以及提供符合研究者自然学习路径的渐进式知识组织方式
Card 01 研究单位

研究单位

  • IROOTECH TECHNOLOGY
  • Wolf 1069 b Lab, Sany Group
  • King's College London, Department of Engineering
  • Hong Kong Polytechnic University
  • Technische Universität Darmstadt, Computer Science Department
  • University of Agder (UiA), Department of ICT and Center for AI Research
  • Imperial College London, Department of Computing
Card 02 论文概述

论文概述

  • 本文是一篇关于Vision-Language-Action (VLA) 模型的综合性综述论文,系统性地分析了VLA领域从基础模块到核心挑战的完整研究图景
  • 论文采用独特的金字塔结构组织内容:从Basic Modules(基础模块)出发,经过Evolution & Milestones(发展历程与里程碑),最终深入探讨Challenges & Solutions & Future Directions(挑战、解决方案与未来方向)
  • 旨在解决现有综述的两个关键缺口:将研究挑战置于核心位置进行深度结构化分析,以及提供符合研究者自然学习路径的渐进式知识组织方式
Card 03 核心贡献

核心贡献

  • 系统性地解构了VLA模型的三大核心模块:Robot Perception(感知)、Robot Brain(决策大脑)、Robot Action(动作执行),涵盖视觉编码器、语言编码器、本体感受编码器、Transformer/Diffusion/VLM架构以及动作表示与解码等关键技术
  • 梳理了VLA领域从2017年至2025年的完整发展脉络,识别出关键里程碑模型如RT-2PaLM-EDiffusion PolicyOpenVLAπ₀GR-2π₀.₅
  • 深度分析了五大核心挑战:Multi-Modal Alignment and Physical World Modeling(多模态对齐与物理世界建模)、Instruction Following, Planning, and Robust Real-Time Execution(指令遵循、规划与鲁棒实时执行)、From Generalization to Continuous Adaptation(从泛化到持续适应)、Safety, Interpretability and Reliable Interaction(安全、可解释性与可靠交互)、Data Construction and Benchmarking Standards(数据构建与评测标准)
  • 针对每个挑战提供了细粒度的子问题分解、现有解决方案对比以及可操作的未来研究方向
  • 构建了"活文档"形式的持续更新机制,通过项目页面跟踪领域前沿进展
Card 04 方法描述

方法描述

  • 采用文献综述与系统性分析方法,对VLA领域的技术发展进行全景式梳理
  • 提出层次化分析框架:将复杂挑战分解为可管理的子问题(如多模态对齐挑战分解为Vision-Language Gap、Vision-Language-Action Gap、Multi-modal Sensory Fusion三个层次)
  • 创新性地采用发展路线图式的叙事结构,模拟研究者从入门到精通的自然学习曲线
  • 对每个技术方向进行多维度对比分析:包括架构设计(CNN vs ViT vs VLM)、训练范式(模仿学习 vs 强化学习)、动作表示(离散 vs 连续 vs 混合)、解码策略(自回归 vs 非自回归 vs 混合)等
  • 强调跨模态融合机制:如SigLIP+DINOv2混合视觉编码、语言对齐的视觉特征提取、触觉/力觉等多模态感知整合
Card 05 数据集与资源

数据集与资源

  • 涵盖Open X-Embodiment (OXE):大规模跨机器人数据集,约800k机器人轨迹
  • AgiBot World:显式技能标注与隐式行为压缩相结合的数据集
  • GR系列数据集:基于大规模人类第一视角视频(如Ego4D)的预训练数据
  • 1.5M-EO-Data:EO-1模型使用的150万规模数据集
  • 仿真环境:ManiSkill3等支持GPU并行渲染的物理仿真平台
  • 模型规模覆盖从77M参数(Evo-1)数十亿参数(RDT-1B、GR-2等)的广泛范围
Card 06 评估与结果

评估与结果

  • 评估基准涵盖VLN(视觉语言导航)、ALFREDALFWorldBEHAVIOR等经典具身智能评测
  • 关键性能指标包括:任务成功率、跨形态泛化能力、实时推理延迟、样本效率、持续学习能力等
  • OpenVLA作为首个完全开源的7B参数VLA模型,显著降低了大规模研究与部署门槛
  • π₀.₅通过层次化Transformer实现高层推理与底层控制的统一,无需目标特定机器人数据即可完成长时程操作
  • GEN-0提供了机器人领域缩放律的早期证据,表明大规模交互数据可实现跨形态泛化的相变
  • 实时性优化方面,SARA-RTRoboMambaOpenVLA-OFT等方法在保持性能的同时显著降低推理延迟