Latent Chain-of-Thought World Modeling for End-to-End Driving - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出 LCDrive（Latent-CoT-Drive），一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，通过潜在空间中的思维链（…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 LCDrive（Latent-CoT-Drive），一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，通过潜在空间中的思维链（Latent Chain-of-Thought）推理替代传统的自然语言推理
核心动机：自然语言不适合表达驾驶中的时空几何和多智能体交互，且文本推理引入显著延迟；潜在推理更高效且与动作对齐

Card 03 核心贡献

提出 LCDrive 框架，在潜在空间中进行思维链推理，使用与动作相同的词汇表表示推理过程
设计交错式潜在推理机制：交替生成动作提议令牌（action-proposal tokens）和潜在世界模型令牌（LWM tokens），实现反事实未来模拟
开发三阶段训练流程：非推理预训练 → 潜在CoT冷启动（监督学习）→ 闭环强化学习优化
证明潜在CoT比文本CoT具有更快的推理速度、更高的轨迹质量，且从RL中获得更大提升

Card 04 方法描述

潜在世界模型（LWM）：编码自车周围智能体的1秒时序窗口状态，压缩为2个紧凑令牌
推理令牌结构：每个推理分支为交错序列 [A₀, LWM₁, A₁, LWM₂, ..., A_{K-1}, LWM_K]，其中A为1秒动作块（10个令牌），LWM为预测的未来世界状态
多分支推理：默认使用B=2个分支，顺序生成以利用先前推理上下文
三阶段训练：

- Stage 0：训练非推理VLA基线

- Stage 1：用冻结基线生成动作提议，结合GT未来构建监督信号，训练潜在CoT结构

- Stage 2：使用GRPO（Group Relative Policy Optimization）进行强化学习，以ADE为奖励优化推理和动作生成

Card 05 数据集与资源

数据集：PhysicalAI-AV 数据集，1727小时真实驾驶数据，使用场景平衡子集（87小时训练，53小时验证，23,758个验证片段）
模型架构：Qwen3-0.5B 作为语言-动作模块，DINOv2 ViT作为图像编码器
训练配置：Stage 0（100k步，batch size 128），Stage 1（10k步），Stage 2 GRPO（3k步，group size 8）
推理深度：K=5（5个1秒推理步），B=2（2个分支）

Card 06 评估与结果

- LCDrive（Latent CoT + RL）：ADE 1.626，OffRoad₂.₅ 1.219，Coll₅.₀ 0.836

- 优于非推理基线（ADE 1.762）和文本CoT基线（ADE 1.650）

- 使用GT LWM的Latent CoT* + RL达到最佳性能（ADE 1.197）

场景分析（Table 2）：在复杂交互场景（Intersection Navigation、Merging、Turning Maneuver）中优势显著，RL对潜在CoT的提升效果明显大于基线
推理效率：潜在CoT比文本CoT显著减少令牌数量，推理速度更快