一眼看懂
封面预览
全面回顾了用于自动驾驶轨迹规划的基础模型(FMs)研究进展,涵盖 37 种近期提出的方法
- 全面回顾了用于自动驾驶轨迹规划的基础模型(FMs)研究进展,涵盖 37 种近期提出的方法
- 提出了一个统一的层次化分类体系,将现有方法系统化分类和比较
- 探讨了如何将基础模型(如 VLM、LVA)适配到自动驾驶轨迹规划任务,包括微调策略和数据构建
Card 01
研究单位
研究单位
- Kemal Oksuz - Five AI Ltd., United Kingdom; Robert Bosch GmbH
- Alexandru Buburuzan - Five AI Ltd., United Kingdom; Robert Bosch GmbH
- Anthony Knittel - Five AI Ltd., United Kingdom; Robert Bosch GmbH
- Yuhan Yao - Robert Bosch GmbH
- Puneet K. Dokania - Five AI Ltd., United Kingdom; Robert Bosch GmbH
Card 02
论文概述
论文概述
- 全面回顾了用于自动驾驶轨迹规划的基础模型(FMs)研究进展,涵盖 37 种近期提出的方法
- 提出了一个统一的层次化分类体系,将现有方法系统化分类和比较
- 探讨了如何将基础模型(如 VLM、LVA)适配到自动驾驶轨迹规划任务,包括微调策略和数据构建
- 评估了现有方法在代码和数据开放性方面的表现,并指出了未来的研究挑战
Card 03
核心贡献
核心贡献
- 提出了一个层次化分类法,将 FM 用于轨迹规划的方法分为两大类:FM 定制用于轨迹规划、FM 引导轨迹规划
- 系统分析了 37 种现有方法,涵盖无 CoT 推理、文本 CoT 推理、轨迹 CoT 推理、语言交互、动作交互等多种子类别
- 提供了实践指导,包括如何微调 FM、构建数据集、选择轨迹表示方法以及训练策略
- 评估了方法的开源开放程度,为研究者和从业者提供可复现性和可重用性的参考
- 概述了未来研究挑战,包括效率、鲁棒性、评估基准和 sim-to-real 迁移
Card 04
方法描述
方法描述
- 层次化分类体系:第一层为"FM 定制用于轨迹规划"和"FM 引导轨迹规划",下设多个子类别
- FM 定制方法:通过微调将现有 VLM 适配到轨迹规划,输出形式包括:
- 无 CoT:直接输出轨迹
- 文本作为 CoT:先输出场景描述再输出轨迹
- 轨迹作为 CoT:先预测初始轨迹再 refinement
- 具备语言交互能力
- 具备动作交互能力
- FM 引导方法:使用知识蒸馏,在训练期间和/或推理期间将 FM 知识转移到传统 AD 模型
- 关键技术:视觉编码器 + 视觉适配器 + LLM 的 VLM 架构,Chain-of-Thought (CoT) 推理
Card 05
数据集与资源
数据集与资源
- 数据集:nuScenes(多视角相机、雷达、激光雷达数据及未来轨迹)、DriveLM-nuScenes、SimLingo 数据集等
- 基础模型示例:GPT-4o、Qwen、LLaVA、CLIP、Flamingo、Intern-VL、OpenVLA 等
- 评估基准:nuScenes、CARLA 闭环评估、开环位移误差等
- 训练方法:主要使用模仿学习 (Imitation Learning)
- 相关资源:提供配套网页 https://github.com/fiveai/FMs-for-driving-trajectories
Card 06
评估与结果
评估与结果
- 论文不进行方法间的性能排名,而是提供概念性分析和组织
- 评估维度包括:
- 架构设计选择
- 训练策略
- 代码和数据集开放性
- 效率与鲁棒性
- Sim-to-real 迁移能力
- 讨论了不同方法在计算效率(如 FM 推理成本)和部署可行性方面的权衡
- 指出了当前基准测试的局限性,以及闭环评估的重要性