一眼看懂
封面预览
论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…
- 论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…
- 核心思想是让模型进行“视觉思考”,通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。
- 该框架充当世界模型预测未来状态,并作为逆动力学模型基于当前观测和视觉思维链规划轨迹,从而弥合感知与规划之间的模态差距。
Card 01
研究单位
研究单位
- Xi’an Jiaotong University
- Amap, Alibaba Group
- DAMO Academy, Alibaba Group
Card 02
论文概述
论文概述
- 论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问题。
- 核心思想是让模型进行“视觉思考”,通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。
- 该框架充当世界模型预测未来状态,并作为逆动力学模型基于当前观测和视觉思维链规划轨迹,从而弥合感知与规划之间的模态差距。
Card 03
核心贡献
核心贡献
- 提出了一种视觉时空思维链推理方法,使模型能够利用未来时空维度的视觉信息增强轨迹规划。
- 提出了一种统一视觉生成与理解的预训练范式,仅需极少数据即可激活多模态大语言模型的视觉生成能力。
- 引入了渐进式生成策略,先生成结构化先验(车道线、3D框)以强制物理约束,再补充细粒度细节。
- 在轨迹规划、未来帧生成和场景理解任务上进行了全面评估,验证了方法的有效性。
Card 04
方法描述
方法描述
- 模型基于现有的 MLLM(如 Qwen2-VL),通过扩展词汇表引入 VQ-VAE 图像标记,实现视觉生成与理解的统一。
- 采用渐进式课程学习:先生成粗粒度的未来感知图像(车道分隔符、3D检测框)以施加静态和动态物理约束,再生成完整未来帧。
- 在推理阶段,模型直接生成一张融合了未来场景、车道线和检测框的统一图像作为中间推理步骤。
- 利用生成的视觉思维链,VLA 作为逆动力学模型,结合当前观测预测未来轨迹。
Card 05
数据集与资源
数据集与资源
- 使用数据集:nuScenes(规划与生成)、NAVSIM(规划)、DriveLM(场景理解)、OmniDrive-nuScenes(VQA)。
- 基础模型:Qwen2-VL-2B。
- 训练资源:8 张 NVIDIA RTX A6000 GPU。
- 视觉分词器:MoVQGAN。
Card 06
评估与结果
评估与结果
- 在 nuScenes 轨迹规划任务中,FSDrive 在 L2 位移误差和碰撞率上均优于现有的非自回归和自回归方法(如 UniAD、OmniDrive)。
- 在 NAVSIM 基准测试中,取得了 85.1 PDMS 分数,超越了之前的仅相机输入方法。
- 在未来帧生成任务中,使用轻量级自回归模型取得了具有竞争力的 FID (10.1),优于 Doe-1 等方法。
- 在 DriveLM 场景理解任务中,取得了 0.57 的最终得分,优于 Cube-LLM 和 OmniDrive。