提出了 DriveTok，一个用于自动驾驶的3D驾驶场景标记器，旨在解决现有标记器在处理高分辨率多视角驾驶场景时效率低下和视角间不一致的问题。

论文详情

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

2026-03-19 · 原文 · 翻译 · 2603.19219

提出了 DriveTok，一个用于自动驾驶的3D驾驶场景标记器，旨在解决现有标记器在处理高分辨率多视角驾驶场景时效率低下和视角间不一致的问题。目标是将多相机输入转换成紧凑、统一、几何感知的场景标记，实现多视角重建与场景理解的统一。核心思路是利用3D可变形注意力将多视角图像特征提升到统一的3D空间，并通过联合多任务训练使场景标记编码纹理、语义与几何信息。

4 分钟读完 6 张阅读卡清华大学

一眼看懂封面预览

提出了 DriveTok，一个用于自动驾驶的3D驾驶场景标记器，旨在解决现有标记器在处理高分辨率多视角驾驶场景时效率低下和视角间不一致的问题。

提出了 DriveTok，一个用于自动驾驶的3D驾驶场景标记器，旨在解决现有标记器在处理高分辨率多视角驾驶场景时效率低下和视角间不一致的问题。
目标是将多相机输入转换成紧凑、统一、几何感知的场景标记，实现多视角重建与场景理解的统一。
核心思路是利用3D可变形注意力将多视角图像特征提升到统一的3D空间，并通过联合多任务训练使场景标记编码纹理、语义与几何信息。

Card 01 研究单位

研究单位

清华大学
银旺智能科技有限公司

Card 02 论文概述

论文概述

提出了 DriveTok，一个用于自动驾驶的3D驾驶场景标记器，旨在解决现有标记器在处理高分辨率多视角驾驶场景时效率低下和视角间不一致的问题。
目标是将多相机输入转换成紧凑、统一、几何感知的场景标记，实现多视角重建与场景理解的统一。
核心思路是利用3D可变形注意力将多视角图像特征提升到统一的3D空间，并通过联合多任务训练使场景标记编码纹理、语义与几何信息。

Card 03 核心贡献

核心贡献

提出了一个面向多视角自动驾驶场景的统一场景标记化框架 DriveTok。
设计了包含语义感知场景编码器与空间感知多视角解码器的架构，利用可见性引导的注意力确保几何一致性。
通过联合图像重建、深度预测、语义分割与3D占用预测的多任务训练，使场景标记学习到丰富的综合信息。
在 nuScenes 数据集上验证了方法在多项任务上的有效性。

Card 04 方法描述

方法描述

场景编码器：使用预训练的 DINOv3-ViT 作为主干网络，提取语义丰富的多视角图像特征，并通过 BEVFormer 风格的模块与3D可变形交叉注意力将其提升到固定的BEV网格，生成几何感知的场景标记。
空间感知多视角解码器：采用标准 ViT 框架，引入可见性引导的注意力掩码，使得场景标记与视角标记之间只在物理可见的区域进行信息交互。视角标记融合了2D位置编码与 Plücker射线 嵌入，增强了空间感知能力。
联合任务头：使用 DPT 解码器从视角标记预测RGB图像、深度图和语义分割图；使用卷积头直接从场景标记预测3D语义占用。通过总损失函数联合优化所有任务。

Card 05 数据集与资源

数据集与资源

使用 nuScenes 数据集进行训练与评估，包含6个周围视角的相机图像。
模型总可训练参数量约为 280M。
训练使用 8张A800 GPU，共约400k次迭代。

Card 06 评估与结果

评估与结果

在 nuScenes 验证集上进行评估。
图像重建：使用PSNR和SSIM作为指标，DriveTok 在多视角输入下取得了与先进图像标记器相当的重建质量。
深度预测：使用AbsRel和δ<1.25作为指标，DriveTok 在与单目及多视角深度估计方法的对比中取得了最优结果，AbsRel最低达到0.08。
3D语义占用预测：使用mIoU和IoU作为指标，DriveTok 在该任务上同样展现出优越性能。
实验证明，DriveTok 学习到的统一场景标记能有效支持图像重建、深度估计、语义分割和3D占用预测等多项下游任务。