返回列表 VLA / Vision-Language-Action 每日论文卡
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving
本文提出了 CoT4AD,一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。

论文详情

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

2025-11-27 · 原文 · 翻译 · 2511.22532

本文提出了 CoT4AD,一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。 该框架通过引入显式的 思维链推理,增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。 论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化,从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。

4 分钟读完 6 张阅读卡 北京大学
一眼看懂 封面预览

本文提出了 CoT4AD,一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。

  • 本文提出了 CoT4AD,一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。
  • 该框架通过引入显式的 思维链推理,增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。
  • 论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化,从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。
Card 01 研究单位

研究单位

  • 北京大学
Card 02 论文概述

论文概述

  • 本文提出了 CoT4AD,一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。
  • 该框架通过引入显式的 思维链推理,增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。
  • 论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化,从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。
Card 03 核心贡献

核心贡献

  • 提出了 CoT4AD,一个端到端自动驾驶框架,它通过多步骤微调预训练VLM,实现了从原始视觉观察和语言指令进行思维链推理和多任务处理。
  • 引入了一种创新的、基于扩散的未来场景预测与轨迹规划方法,并将其无缝集成到思维链推理流水线中。
  • NuScenesBench2Drive 数据集上的广泛实验表明,CoT4AD在开环和闭环评估中均建立了新的最先进结果,持续超越先前的LLM驱动和端到端自动驾驶方法。
Card 04 方法描述

方法描述

  • 提出了一个四阶段的思维链推理流程:3D环境感知视觉-语言提示调优VLM条件潜在扩散思维链轨迹规划
  • 在感知阶段,采用以特征为中心的训练,结合 MapTokenizerObjectTokenizerBEVTokenizer 生成包含静态元素、动态对象和整体环境的全面3D视觉标记。
  • 在调优阶段,引入可学习的阶段无关标记 Vs 进行软提示调优,并通过视觉问答数据集对模型进行指令微调,以实现从多模态标记到数值推理空间的迁移。
  • 创新性地使用一个 VLM条件的潜在扩散模型 来生成高保真的未来场景预测,使模型学习对未来场景变化的视觉推理,增强对环境语义和物理规律的理解。
  • 在规划阶段,采用VLM条件的扩散规划器,直接生成轨迹规划,并在推理时可通过隐式思维链在单次前向传播中完成,平衡了规划性能与计算效率。
Card 05 数据集与资源

数据集与资源

  • 使用了真实世界数据集 nuScenes 和仿真数据集 Bench2Drive 进行训练和评估。
  • 模型基于 LLaMA-3,视觉编码器采用预训练的 EVA-CLIP
  • 训练在8块 NVIDIA RTX A800 GPU(80GB显存)上进行,使用SGD优化器。
Card 06 评估与结果

评估与结果

  • NuScenes 开环评估中,CoT4AD 在1s、2s、3s预测范围的L2误差上达到 0.29 m 平均值,碰撞率为 0.10%,显著优于现有最先进的VLA和E2E-AD方法。
  • Bench2Drive 闭环评估中,CoT4AD-CoT 取得了最高的驾驶分数 81.22 和成功率 55.78%,超越了包括ORION和DriveTransformer在内的强大基线。
  • 消融实验验证了感知分词器、VQA推理模块和未来场景预测模块的有效性,其中未来预测模块对性能提升贡献最大。