返回列表 VLA / Vision-Language-Action 每日论文卡
Latent Chain-of-Thought World Modeling for End-to-End Driving
论文提出 LCDrive(Latent-CoT-Drive),一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,通过潜在空间中的思维链(…

论文详情

Latent Chain-of-Thought World Modeling for End-to-End Driving

2025-12-11 · 原文 · 翻译 · 2512.10226

论文提出 LCDrive(Latent-CoT-Drive),一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,通过潜在空间中的思维链(Latent Chain-of-Thought)推理替代传统的自然语言推理 核心动机:自然语言不适合表达驾驶中的时空几何和多智能体交互,且文本推理引入显著延迟;潜在推理更高效且与动作对齐

5 分钟读完 6 张阅读卡 UT Austin(德克萨斯大学奥斯汀分校)
一眼看懂 封面预览

论文提出 LCDrive(Latent-CoT-Drive),一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,通过潜在空间中的思维链(…

  • 论文提出 LCDrive(Latent-CoT-Drive),一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,通过潜在空间中的思维链(…
  • 核心动机:自然语言不适合表达驾驶中的时空几何和多智能体交互,且文本推理引入显著延迟;潜在推理更高效且与动作对齐
  • 提出 LCDrive 框架,在潜在空间中进行思维链推理,使用与动作相同的词汇表表示推理过程
Card 01 研究单位

研究单位

  • UT Austin(德克萨斯大学奥斯汀分校)
  • NVIDIA(英伟达)
  • Stanford University(斯坦福大学)
Card 02 论文概述

论文概述

  • 论文提出 LCDrive(Latent-CoT-Drive),一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,通过潜在空间中的思维链(Latent Chain-of-Thought)推理替代传统的自然语言推理
  • 核心动机:自然语言不适合表达驾驶中的时空几何和多智能体交互,且文本推理引入显著延迟;潜在推理更高效且与动作对齐
Card 03 核心贡献

核心贡献

  • 提出 LCDrive 框架,在潜在空间中进行思维链推理,使用与动作相同的词汇表表示推理过程
  • 设计交错式潜在推理机制:交替生成动作提议令牌(action-proposal tokens)和潜在世界模型令牌(LWM tokens),实现反事实未来模拟
  • 开发三阶段训练流程:非推理预训练 → 潜在CoT冷启动(监督学习)→ 闭环强化学习优化
  • 证明潜在CoT比文本CoT具有更快的推理速度、更高的轨迹质量,且从RL中获得更大提升
Card 04 方法描述

方法描述

  • 潜在世界模型(LWM):编码自车周围智能体的1秒时序窗口状态,压缩为2个紧凑令牌
  • 推理令牌结构:每个推理分支为交错序列 [A₀, LWM₁, A₁, LWM₂, ..., A_{K-1}, LWM_K],其中A为1秒动作块(10个令牌),LWM为预测的未来世界状态
  • 多分支推理:默认使用B=2个分支,顺序生成以利用先前推理上下文
  • 三阶段训练

- Stage 0:训练非推理VLA基线

- Stage 1:用冻结基线生成动作提议,结合GT未来构建监督信号,训练潜在CoT结构

- Stage 2:使用GRPO(Group Relative Policy Optimization)进行强化学习,以ADE为奖励优化推理和动作生成

Card 05 数据集与资源

数据集与资源

  • 数据集PhysicalAI-AV 数据集,1727小时真实驾驶数据,使用场景平衡子集(87小时训练,53小时验证,23,758个验证片段)
  • 模型架构Qwen3-0.5B 作为语言-动作模块,DINOv2 ViT作为图像编码器
  • 训练配置:Stage 0(100k步,batch size 128),Stage 1(10k步),Stage 2 GRPO(3k步,group size 8)
  • 推理深度:K=5(5个1秒推理步),B=2(2个分支)
Card 06 评估与结果

评估与结果

  • 评估指标:ADE(平均位移误差)、OffRoad(驶离道路比例)、Coll(碰撞比例)、Corner Dist(角点距离)
  • 主要结果(Table 1):

- LCDrive(Latent CoT + RL):ADE 1.626,OffRoad₂.₅ 1.219,Coll₅.₀ 0.836

- 优于非推理基线(ADE 1.762)和文本CoT基线(ADE 1.650)

- 使用GT LWM的Latent CoT* + RL达到最佳性能(ADE 1.197)

  • 场景分析(Table 2):在复杂交互场景(Intersection Navigation、Merging、Turning Maneuver)中优势显著,RL对潜在CoT的提升效果明显大于基线
  • 推理效率:潜在CoT比文本CoT显著减少令牌数量,推理速度更快