论文提出了一种 Vision-Geometry-Action (VGA) 范式，主张将密集 3D 几何作为自动驾驶决策的关键线索，以替代传统的…

论文详情

DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

2026-04-01 · 原文 · 翻译 · 2604.00813

论文提出了一种 Vision-Geometry-Action (VGA) 范式，主张将密集 3D 几何作为自动驾驶决策的关键线索，以替代传统的稀疏感知或语言描述方法。论文引入了流式 DVGT-2 模型，能够以在线方式处理输入，同时输出密集几何重建和轨迹规划，解决了现有几何重建方法计算冗余大、无法实时在线应用的问题。论文旨在构建一个鲁棒的 VGA 基础模型，通过大规模混合数据集训练，实现高效的几何重建，并能直接跨…

5 分钟读完 6 张阅读卡清华大学

一眼看懂封面预览

论文提出了一种 Vision-Geometry-Action (VGA) 范式，主张将密集 3D 几何作为自动驾驶决策的关键线索，以替代传统的…

论文提出了一种 Vision-Geometry-Action (VGA) 范式，主张将密集 3D 几何作为自动驾驶决策的关键线索，以替代传统的…
论文引入了流式 DVGT-2 模型，能够以在线方式处理输入，同时输出密集几何重建和轨迹规划，解决了现有几何重建方法计算冗余大、无法实时在线应用…
论文旨在构建一个鲁棒的 VGA 基础模型，通过大规模混合数据集训练，实现高效的几何重建，并能直接跨不同相机配置应用于轨迹规划任务。

Card 01 研究单位

研究单位

清华大学
小米电动汽车
澳门大学
北京大学

Card 02 论文概述

论文概述

论文提出了一种 Vision-Geometry-Action (VGA) 范式，主张将密集 3D 几何作为自动驾驶决策的关键线索，以替代传统的稀疏感知或语言描述方法。
论文引入了流式 DVGT-2 模型，能够以在线方式处理输入，同时输出密集几何重建和轨迹规划，解决了现有几何重建方法计算冗余大、无法实时在线应用的问题。
论文旨在构建一个鲁棒的 VGA 基础模型，通过大规模混合数据集训练，实现高效的几何重建，并能直接跨不同相机配置应用于轨迹规划任务。

Card 03 核心贡献

核心贡献

提出了 Vision-Geometry-Action (VGA) 新范式，以密集 3D 几何作为自动驾驶规划的核心表征，提供像素对齐的完整场景描述。
设计了流式 DVGT-2 模型，通过时间因果注意力和历史特征缓存机制，支持高效的在线推理，避免了历史帧的重复计算。
提出了 滑动窗口流式策略，维持固定大小的历史缓存，采用相对时间位置编码和局部坐标系预测，实现了恒定的计算开销和任意长度视频流处理。
在大规模混合驾驶数据集上训练，模型在多个数据集上取得了优越的几何重建性能，并无需微调即可在 NAVSIM 和 nuScenes 基准上实现强规划表现。
训练好的单一模型可直接应用于具有不同相机配置的数据集进行规划，验证了 VGA 范式的有效性。

Card 04 方法描述

方法描述

模型架构包含：图像编码器（基于 DINOv3 的 ViT-L）、几何 Transformer（24 层分解注意力模块）和任务特定预测头（DPT 头和锚点扩散头）。
几何 Transformer 执行三种注意力操作：内部视图局部注意力、跨视图空间注意力 和 时间因果注意力。
创新点在于使用时间因果注意力与历史特征缓存相结合，并采用 MRoPE-I 相对时间位置编码，确保缓存特征时间不变性，支持无限长度流式推理。
采用 滑动窗口机制 以 FIFO 方式更新固定大小的历史缓存，保持推理速度恒定。
预测头分别输出密集 3D 点图（在当前自车坐标系）、相对自车姿态和未来轨迹（通过截断扩散策略解码）。

Card 05 数据集与资源

数据集与资源

使用大规模混合驾驶数据集：nuScenes、OpenScene、Waymo、KITTI、DDAD，以 2 Hz 采样多视角视频序列。
模型规模：图像编码器为 ViT-L，几何 Transformer 为 24 层，特征维度 1024，注意力头数为 16。
训练资源：整个训练过程耗时约 10 天，使用 64 个 H20 GPU。

Card 06 评估与结果

评估与结果

评估环境：几何重建在 OpenScene、nuScenes、Waymo、DDAD 数据集上评估；轨迹规划在闭环 NAVSIM v1/v2 和开环 nuScenes 基准上评估。
主要评估指标：几何重建使用 Accuracy、Completeness、Abs Rel、δ<1.25、AUC；轨迹规划使用 L2 位移误差、碰撞率、PDMS/EPDMS 评分。
关键实验结果：在几何重建上，DVGT-2 在多个数据集上达到优越性能（如 OpenScene 上 Acc 0.440、Comp 0.450），推理速度约 0.27s，远快于批量处理方法。
同一训练模型可直接应用于不同基准进行规划，在 NAVSIM 和 nuScenes 上取得强性能，无需针对相机配置微调。