返回列表 VLA / Vision-Language-Action 每日论文卡

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

论文详情

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

2025-05-23 · 原文 · 翻译 · 2505.17685

论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问题。 核心思想是让模型进行“视觉思考”,通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。 该框架充当世界模型预测未来状态,并作为逆动力学模型基于当前观测和视觉思维链规划轨迹,从而弥合感知与规划之间的模态差距。

4 分钟读完 6 张阅读卡 Xi’an Jiaotong University
一眼看懂 封面预览

论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…

  • 论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问…
  • 核心思想是让模型进行“视觉思考”,通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链。
  • 该框架充当世界模型预测未来状态,并作为逆动力学模型基于当前观测和视觉思维链规划轨迹,从而弥合感知与规划之间的模态差距。
Card 01 研究单位

研究单位

  • Xi’an Jiaotong University
  • Amap, Alibaba Group
  • DAMO Academy, Alibaba Group
Card 02 论文概述

论文概述

  • 论文提出了 FSDrive,一个用于自动驾驶的视觉-语言-动作(VLA)框架,旨在解决传统文本思维链导致的空间-时间关系模糊和细粒度信息丢失问题。
  • 核心思想是让模型进行“视觉思考”,通过生成包含未来车道线和3D检测框的统一未来帧作为视觉时空思维链
  • 该框架充当世界模型预测未来状态,并作为逆动力学模型基于当前观测和视觉思维链规划轨迹,从而弥合感知与规划之间的模态差距。
Card 03 核心贡献

核心贡献

  • 提出了一种视觉时空思维链推理方法,使模型能够利用未来时空维度的视觉信息增强轨迹规划。
  • 提出了一种统一视觉生成与理解的预训练范式,仅需极少数据即可激活多模态大语言模型的视觉生成能力。
  • 引入了渐进式生成策略,先生成结构化先验(车道线、3D框)以强制物理约束,再补充细粒度细节。
  • 在轨迹规划、未来帧生成和场景理解任务上进行了全面评估,验证了方法的有效性。
Card 04 方法描述

方法描述

  • 模型基于现有的 MLLM(如 Qwen2-VL),通过扩展词汇表引入 VQ-VAE 图像标记,实现视觉生成与理解的统一。
  • 采用渐进式课程学习:先生成粗粒度的未来感知图像(车道分隔符、3D检测框)以施加静态和动态物理约束,再生成完整未来帧。
  • 在推理阶段,模型直接生成一张融合了未来场景、车道线和检测框的统一图像作为中间推理步骤。
  • 利用生成的视觉思维链,VLA 作为逆动力学模型,结合当前观测预测未来轨迹。
Card 05 数据集与资源

数据集与资源

  • 使用数据集:nuScenes(规划与生成)、NAVSIM(规划)、DriveLM(场景理解)、OmniDrive-nuScenes(VQA)。
  • 基础模型:Qwen2-VL-2B
  • 训练资源:8 张 NVIDIA RTX A6000 GPU。
  • 视觉分词器:MoVQGAN
Card 06 评估与结果

评估与结果

  • nuScenes 轨迹规划任务中,FSDrive 在 L2 位移误差和碰撞率上均优于现有的非自回归和自回归方法(如 UniAD、OmniDrive)。
  • NAVSIM 基准测试中,取得了 85.1 PDMS 分数,超越了之前的仅相机输入方法。
  • 在未来帧生成任务中,使用轻量级自回归模型取得了具有竞争力的 FID (10.1),优于 Doe-1 等方法。
  • DriveLM 场景理解任务中,取得了 0.57 的最终得分,优于 Cube-LLM 和 OmniDrive。