一眼看懂
封面预览
该论文对机器人领域的基础模型进行了全面、系统的综述,旨在深入剖析研究现状、方法和未来方向。
- 该论文对机器人领域的基础模型进行了全面、系统的综述,旨在深入剖析研究现状、方法和未来方向。
- 论文将机器人基础模型的研究演进划分为五个阶段,从早期的 NLP/CV 集成到当下的多感官泛化和现实世界部署。
- 解决了现有综述在覆盖范围、分析维度和系统比较方面的局限性,提供了一个多维度的细粒度分类体系。
Card 01
研究单位
研究单位
- Harokopio University of Athens (Department of Informatics and Telematics)
- Kingston University (Department of Networks and Digital Media)
- Hellenic Mediterranean University (Department of Electrical and Computer Engineering)
- University of Western Macedonia (Department of Electrical and Computer Engineering)
- University of Amsterdam
- Archimedes, Athena Research Center
- Rutgers University (Computer Science Department)
- Istituto Italiano di Tecnologia
Card 02
论文概述
论文概述
- 该论文对机器人领域的基础模型进行了全面、系统的综述,旨在深入剖析研究现状、方法和未来方向。
- 论文将机器人基础模型的研究演进划分为五个阶段,从早期的 NLP/CV 集成到当下的多感官泛化和现实世界部署。
- 解决了现有综述在覆盖范围、分析维度和系统比较方面的局限性,提供了一个多维度的细粒度分类体系。
Card 03
核心贡献
核心贡献
- 提出了机器人 FM 研究的五个演进阶段:原生 NLP/CV 集成(2018-2021)、视觉-语言规划(2021-2022)、具身 VLA 策略(2022-2023)、记忆与任务组合(2023-2024)、多感官泛化(2024-至今)。
- 构建了一个多准则分类体系,涵盖模型类型、神经网络架构、学习范式、学习阶段、机器人任务和应用领域六个关键维度。
- 对现有文献进行了系统性的比较分析,并报告了用于模型训练和评估的公共数据集。
- 详细讨论了该领域当前的挑战和未来的研究方向,包括数据、计算、安全、具身和推理等方面。
- 采用了严格的系统文献综述方法,分析了 435 篇相关论文。
Card 04
方法描述
方法描述
- 采用系统文献综述(SLR)方法,在 IEEE Xplore、Google Scholar、Scopus、DBLP、arXiv 和 Web of Science 六大数据库中进行检索。
- 使用特定的关键词组合(如 "foundation model", "robotics", "VLA")和布尔逻辑进行检索,并制定了明确的纳入/排除标准。
- 通过迭代筛选过程(标题/摘要筛选、全文审查)精选出高质量文献进行分析。
- 对文献进行细粒度的分类调查和横向比较分析,揭示了不同方法类别之间的关键洞察。
Card 05
数据集与资源
数据集与资源
- 研究基于 435 篇精选的学术论文作为分析对象。
- 论文综述了多种主流基础模型,包括 BERT (110M)、GPT-3 (175B)、ViT (86M)、CLIP (175M)、DINO、OWL-ViT、BLIP 以及 SayCan 和 RT-1 等机器人专用模型。
- 涵盖了模型训练和评估中使用的公共数据集报告(详见论文第 11 节)。
Card 06
评估与结果
评估与结果
- 评估环境为对现有机器人 FM 文献的系统调研和分类分析。
- 主要评估指标包括文献的出版年份、类型、发表载体以及模型参数量、输入输出模态等属性。
- 关键实验结果(文献计量分析)表明,研究重点从模块化设计逐渐转向集成/通用智能体。
- 比较分析结果(Table 1)显示,该综述在覆盖范围、系统性和分析维度上优于现有同类综述文章。
- 总结了各类基础模型(如 LLMs, VFMs, VLMs, VLAs)在机器人任务中的关键创新点和能力差异。