本文提出了 CoT4AD，一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。

论文详情

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

2025-11-27 · 原文 · 翻译 · 2511.22532

本文提出了 CoT4AD，一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。该框架通过引入显式的思维链推理，增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化，从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。

4 分钟读完 6 张阅读卡北京大学

一眼看懂封面预览

本文提出了 CoT4AD，一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。

本文提出了 CoT4AD，一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。
该框架通过引入显式的思维链推理，增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。
论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化，从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。

Card 01 研究单位

研究单位

北京大学

Card 02 论文概述

论文概述

本文提出了 CoT4AD，一个用于端到端自动驾驶的新型视觉-语言-动作模型框架。
该框架通过引入显式的 思维链推理，增强了视觉语言模型在复杂驾驶场景中的数值推理与因果推理能力。
论文旨在解决现有VLA模型数值推理能力有限、输入-输出映射过于简化，从而导致在需要逐步因果推理的复杂环境中表现不佳的问题。

Card 03 核心贡献

核心贡献

提出了 CoT4AD，一个端到端自动驾驶框架，它通过多步骤微调预训练VLM，实现了从原始视觉观察和语言指令进行思维链推理和多任务处理。
引入了一种创新的、基于扩散的未来场景预测与轨迹规划方法，并将其无缝集成到思维链推理流水线中。
在 NuScenes 和 Bench2Drive 数据集上的广泛实验表明，CoT4AD在开环和闭环评估中均建立了新的最先进结果，持续超越先前的LLM驱动和端到端自动驾驶方法。

Card 04 方法描述

方法描述

提出了一个四阶段的思维链推理流程：3D环境感知、视觉-语言提示调优、VLM条件潜在扩散和思维链轨迹规划。
在感知阶段，采用以特征为中心的训练，结合 MapTokenizer、ObjectTokenizer 和 BEVTokenizer 生成包含静态元素、动态对象和整体环境的全面3D视觉标记。
在调优阶段，引入可学习的阶段无关标记 Vs 进行软提示调优，并通过视觉问答数据集对模型进行指令微调，以实现从多模态标记到数值推理空间的迁移。
创新性地使用一个 VLM条件的潜在扩散模型 来生成高保真的未来场景预测，使模型学习对未来场景变化的视觉推理，增强对环境语义和物理规律的理解。
在规划阶段，采用VLM条件的扩散规划器，直接生成轨迹规划，并在推理时可通过隐式思维链在单次前向传播中完成，平衡了规划性能与计算效率。

Card 05 数据集与资源

数据集与资源

使用了真实世界数据集 nuScenes 和仿真数据集 Bench2Drive 进行训练和评估。
模型基于 LLaMA-3，视觉编码器采用预训练的 EVA-CLIP。
训练在8块 NVIDIA RTX A800 GPU（80GB显存）上进行，使用SGD优化器。

Card 06 评估与结果

评估与结果

在 NuScenes 开环评估中，CoT4AD 在1s、2s、3s预测范围的L2误差上达到 0.29 m 平均值，碰撞率为 0.10%，显著优于现有最先进的VLA和E2E-AD方法。
在 Bench2Drive 闭环评估中，CoT4AD-CoT 取得了最高的驾驶分数 81.22 和成功率 55.78%，超越了包括ORION和DriveTransformer在内的强大基线。
消融实验验证了感知分词器、VQA推理模块和未来场景预测模块的有效性，其中未来预测模块对性能提升贡献最大。