一眼看懂
封面预览
本文是一篇关于大模型赋能具身智能(Embodied AI)的综述论文,聚焦于自主决策(Decision-Making)和具身学习(Embodi…
- 本文是一篇关于大模型赋能具身智能(Embodied AI)的综述论文,聚焦于自主决策(Decision-Making)和具身学习(Embodi…
- 系统梳理了分层决策(Hierarchical)与端到端决策(End-to-End)两种范式,以及模仿学习、强化学习等学习方法,并首次将世界模型…
- 旨在解决现有研究分散、缺乏系统分类的问题,为追求通用人工智能(AGI)提供清晰的理论框架和实践指导
Card 01
研究单位
研究单位
- 电子科技大学(University of Electronic Science and Technology of China),成都,中国
Card 02
论文概述
论文概述
- 本文是一篇关于大模型赋能具身智能(Embodied AI)的综述论文,聚焦于自主决策(Decision-Making)和具身学习(Embodied Learning)两大核心领域
- 系统梳理了分层决策(Hierarchical)与端到端决策(End-to-End)两种范式,以及模仿学习、强化学习等学习方法,并首次将世界模型(World Model)纳入具身智能综述框架
- 旨在解决现有研究分散、缺乏系统分类的问题,为追求通用人工智能(AGI)提供清晰的理论框架和实践指导
Card 03
核心贡献
核心贡献
- 聚焦大模型对具身智能的赋能视角:从分层决策(高层规划、低层执行、反馈增强)和端到端决策(VLA模型)两个维度,系统分析大模型的作用机制
- 全面覆盖决策与学习范式:首次同时涵盖分层与端到端决策、模仿学习与强化学习、迁移学习与元学习,并整合世界模型的关键作用
- 采用双重分析方法:横向对比不同方法(如多种大模型、分层vs端到端、IL vs RL),纵向追溯核心模型/方法的演进脉络与开放挑战
- 首次将世界模型纳入具身智能综述:系统介绍世界模型的设计方法及其在决策和学习中的关键作用
- 指明未来研究方向:讨论数据稀缺性、持续学习、计算效率、仿真到现实迁移等核心挑战
Card 04
方法描述
方法描述
- 分层决策范式:利用大语言模型(LLM)进行高层任务规划(结构化语言/自然语言/编程语言规划),结合传统控制算法或学习驱动控制进行低层执行,通过自我反思、人类反馈和环境反馈实现闭环优化
- 端到端决策范式:基于视觉-语言-动作模型(VLA),将多模态输入直接映射到动作输出,通过Token化、跨模态信息融合和动作反Token化实现一体化决策
- 具身学习方法:大模型增强的模仿学习(扩散策略网络、Transformer策略网络)和强化学习(奖励函数设计、策略网络构建)
- 世界模型:采用潜在空间世界模型、基于Transformer的世界模型、基于扩散的世界模型、联合嵌入预测架构(JEPA)等设计,支持决策验证、知识增强、状态转移建模和数据生成
Card 05
数据集与资源
数据集与资源
- 本综述论文主要回顾和分析现有方法,未报告新的实验训练
- 涉及的主流模型规模包括:GPT-3/4、PaLM-E、LLaMA(7B-65B参数)、RT-2、OpenVLA、Octo、π₀等
- 训练资源涉及大规模GPU集群(如RT-2使用TPU v4进行预训练)
Card 06
评估与结果
评估与结果
- 评估环境涵盖:ALFRED、Minecraft、Meta-World、SAPIEN、Real-world robotic tasks等仿真与真实场景
- 主要评估指标包括:任务成功率、规划可行性、动作精度、跨任务泛化能力、样本效率、计算效率
- 关键发现:
- 分层范式在可解释性和模块化方面具有优势,但存在错误累积和语义-动作鸿沟
- 端到端VLA模型(如RT-2、OpenVLA)在泛化能力上显著提升,但对视觉噪声敏感且计算成本高
- 扩散增强的VLA(如Diffusion-VLA、Octo)在动作平滑性和精度上表现更优
- 世界模型能有效缓解数据稀缺问题,提升样本效率和仿真到现实的迁移能力