FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

论文详情

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

2025-05-23 · 原文 · 翻译 · 2505.17685

论文提出了 FSDrive，一个用于自动驾驶的视觉-语言-动作（VLA）框架，旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问题。核心思想是让模型进行“视觉思考”，通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。该框架充当世界模型预测未来状态，并作为逆动力学模型基于当前观测和视觉思维链规划轨迹，从而弥合感知与规划之间的模态差距。

4 分钟读完 6 张阅读卡 Xi’an Jiaotong University

一眼看懂封面预览

论文提出了 FSDrive，一个用于自动驾驶的视觉-语言-动作（VLA）框架，旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…

论文提出了 FSDrive，一个用于自动驾驶的视觉-语言-动作（VLA）框架，旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…
核心思想是让模型进行“视觉思考”，通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。
该框架充当世界模型预测未来状态，并作为逆动力学模型基于当前观测和视觉思维链规划轨迹，从而弥合感知与规划之间的模态差距。

Card 01 研究单位

研究单位

Xi’an Jiaotong University
Amap, Alibaba Group
DAMO Academy, Alibaba Group

Card 02 论文概述

论文概述

论文提出了 FSDrive，一个用于自动驾驶的视觉-语言-动作（VLA）框架，旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问题。
核心思想是让模型进行“视觉思考”，通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。
该框架充当世界模型预测未来状态，并作为逆动力学模型基于当前观测和视觉思维链规划轨迹，从而弥合感知与规划之间的模态差距。

Card 03 核心贡献

核心贡献

提出了一种视觉时空思维链推理方法，使模型能够利用未来时空维度的视觉信息增强轨迹规划。
提出了一种统一视觉生成与理解的预训练范式，仅需极少数据即可激活多模态大语言模型的视觉生成能力。
引入了渐进式生成策略，先生成结构化先验（车道线、3D框）以强制物理约束，再补充细粒度细节。
在轨迹规划、未来帧生成和场景理解任务上进行了全面评估，验证了方法的有效性。

Card 04 方法描述

方法描述

模型基于现有的 MLLM（如 Qwen2-VL），通过扩展词汇表引入 VQ-VAE 图像标记，实现视觉生成与理解的统一。
采用渐进式课程学习：先生成粗粒度的未来感知图像（车道分隔符、3D检测框）以施加静态和动态物理约束，再生成完整未来帧。
在推理阶段，模型直接生成一张融合了未来场景、车道线和检测框的统一图像作为中间推理步骤。
利用生成的视觉思维链，VLA 作为逆动力学模型，结合当前观测预测未来轨迹。

Card 05 数据集与资源

数据集与资源

使用数据集：nuScenes（规划与生成）、NAVSIM（规划）、DriveLM（场景理解）、OmniDrive-nuScenes（VQA）。
基础模型：Qwen2-VL-2B。
训练资源：8 张 NVIDIA RTX A6000 GPU。
视觉分词器：MoVQGAN。

Card 06 评估与结果

评估与结果

在 nuScenes 轨迹规划任务中，FSDrive 在 L2 位移误差和碰撞率上均优于现有的非自回归和自回归方法（如 UniAD、OmniDrive）。
在 NAVSIM 基准测试中，取得了 85.1 PDMS 分数，超越了之前的仅相机输入方法。
在未来帧生成任务中，使用轻量级自回归模型取得了具有竞争力的 FID (10.1)，优于 Doe-1 等方法。
在 DriveLM 场景理解任务中，取得了 0.57 的最终得分，优于 Cube-LLM 和 OmniDrive。