Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

一眼看懂封面预览

本文是一篇关于大模型赋能具身智能（Embodied AI）的综述论文，聚焦于自主决策（Decision-Making）和具身学习（Embodi…

Card 01 研究单位

研究单位

Card 02 论文概述

本文是一篇关于大模型赋能具身智能（Embodied AI）的综述论文，聚焦于自主决策（Decision-Making）和具身学习（Embodied Learning）两大核心领域
系统梳理了分层决策（Hierarchical）与端到端决策（End-to-End）两种范式，以及模仿学习、强化学习等学习方法，并首次将世界模型（World Model）纳入具身智能综述框架
旨在解决现有研究分散、缺乏系统分类的问题，为追求通用人工智能（AGI）提供清晰的理论框架和实践指导

Card 03 核心贡献

Card 04 方法描述

分层决策范式：利用大语言模型（LLM）进行高层任务规划（结构化语言/自然语言/编程语言规划），结合传统控制算法或学习驱动控制进行低层执行，通过自我反思、人类反馈和环境反馈实现闭环优化
端到端决策范式：基于视觉-语言-动作模型（VLA），将多模态输入直接映射到动作输出，通过Token化、跨模态信息融合和动作反Token化实现一体化决策
具身学习方法：大模型增强的模仿学习（扩散策略网络、Transformer策略网络）和强化学习（奖励函数设计、策略网络构建）
世界模型：采用潜在空间世界模型、基于Transformer的世界模型、基于扩散的世界模型、联合嵌入预测架构（JEPA）等设计，支持决策验证、知识增强、状态转移建模和数据生成

Card 05 数据集与资源

本综述论文主要回顾和分析现有方法，未报告新的实验训练
涉及的主流模型规模包括：GPT-3/4、PaLM-E、LLaMA（7B-65B参数）、RT-2、OpenVLA、Octo、π₀等
训练资源涉及大规模GPU集群（如RT-2使用TPU v4进行预训练）

Card 06 评估与结果

评估环境涵盖：ALFRED、Minecraft、Meta-World、SAPIEN、Real-world robotic tasks等仿真与真实场景
主要评估指标包括：任务成功率、规划可行性、动作精度、跨任务泛化能力、样本效率、计算效率
关键发现：

- 分层范式在可解释性和模块化方面具有优势，但存在错误累积和语义-动作鸿沟

- 端到端VLA模型（如RT-2、OpenVLA）在泛化能力上显著提升，但对视觉噪声敏感且计算成本高

- 扩散增强的VLA（如Diffusion-VLA、Octo）在动作平滑性和精度上表现更优

- 世界模型能有效缓解数据稀缺问题，提升样本效率和仿真到现实的迁移能力