Foundation Models in Robotics: A Comprehensive Review of Methods, Models, Datasets, Challenges and Future Research Directions

一眼看懂封面预览

该论文对机器人领域的基础模型进行了全面、系统的综述，旨在深入剖析研究现状、方法和未来方向。

Card 01 研究单位

研究单位

Harokopio University of Athens (Department of Informatics and Telematics)
Kingston University (Department of Networks and Digital Media)
Hellenic Mediterranean University (Department of Electrical and Computer Engineering)
University of Western Macedonia (Department of Electrical and Computer Engineering)
University of Amsterdam
Archimedes, Athena Research Center
Rutgers University (Computer Science Department)
Istituto Italiano di Tecnologia

Card 02 论文概述

Card 03 核心贡献

提出了机器人 FM 研究的五个演进阶段：原生 NLP/CV 集成（2018-2021）、视觉-语言规划（2021-2022）、具身 VLA 策略（2022-2023）、记忆与任务组合（2023-2024）、多感官泛化（2024-至今）。
构建了一个多准则分类体系，涵盖模型类型、神经网络架构、学习范式、学习阶段、机器人任务和应用领域六个关键维度。
对现有文献进行了系统性的比较分析，并报告了用于模型训练和评估的公共数据集。
详细讨论了该领域当前的挑战和未来的研究方向，包括数据、计算、安全、具身和推理等方面。
采用了严格的系统文献综述方法，分析了 435 篇相关论文。

Card 04 方法描述

采用系统文献综述（SLR）方法，在 IEEE Xplore、Google Scholar、Scopus、DBLP、arXiv 和 Web of Science 六大数据库中进行检索。
使用特定的关键词组合（如 "foundation model", "robotics", "VLA"）和布尔逻辑进行检索，并制定了明确的纳入/排除标准。
通过迭代筛选过程（标题/摘要筛选、全文审查）精选出高质量文献进行分析。
对文献进行细粒度的分类调查和横向比较分析，揭示了不同方法类别之间的关键洞察。

Card 05 数据集与资源

研究基于 435 篇精选的学术论文作为分析对象。
论文综述了多种主流基础模型，包括 BERT (110M)、GPT-3 (175B)、ViT (86M)、CLIP (175M)、DINO、OWL-ViT、BLIP 以及 SayCan 和 RT-1 等机器人专用模型。
涵盖了模型训练和评估中使用的公共数据集报告（详见论文第 11 节）。

Card 06 评估与结果