SAB3R: Semantic-Augmented Backbone in 3D Reconstruction

论文详情

SAB3R: Semantic-Augmented Backbone in 3D Reconstruction

2025-06-02 · 原文 · 翻译 · 2506.02112

论文提出了一个新的任务 Map and Locate，该任务统一了开放词汇语义分割（基于自然语言查询检测和分割实例）与3D重建（从视觉输入估计场景的3D结构），旨在从无位姿视频中生成点云并分割目标对象。为了解决这一任务，论文提出了一个简单有效的基线模型 SAB3R，该模型基于 MASt3R 构建，通过轻量级蒸馏策略将 CLIP 和 DINOv2 等2D视觉主干网络的语义特征融入3D重建框架。该研究解决了现有方法…

5 分钟读完 6 张阅读卡 University of Virginia

一眼看懂封面预览

论文提出了一个新的任务 Map and Locate，该任务统一了开放词汇语义分割（基于自然语言查询检测和分割实例）与3D重建（从视觉输入估计…

论文提出了一个新的任务 Map and Locate，该任务统一了开放词汇语义分割（基于自然语言查询检测和分割实例）与3D重建（从视觉输入估计…
为了解决这一任务，论文提出了一个简单有效的基线模型 SAB3R，该模型基于 MASt3R 构建，通过轻量级蒸馏策略将 CLIP 和 DINOv…
该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题，实现了在单次前向传播中同时生成密集语义特征和构建一致点图。

Card 01 研究单位

研究单位

University of Virginia
University of Michigan

Card 02 论文概述

论文概述

论文提出了一个新的任务 Map and Locate，该任务统一了开放词汇语义分割（基于自然语言查询检测和分割实例）与3D重建（从视觉输入估计场景的3D结构），旨在从无位姿视频中生成点云并分割目标对象。
为了解决这一任务，论文提出了一个简单有效的基线模型 SAB3R，该模型基于 MASt3R 构建，通过轻量级蒸馏策略将 CLIP 和 DINOv2 等2D视觉主干网络的语义特征融入3D重建框架。
该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题，实现了在单次前向传播中同时生成密集语义特征和构建一致点图。

Card 03 核心贡献

核心贡献

提出了 Map and Locate 基准测试，这是一个统一了重建、重组和识别任务的多视图3D语义分割新基准，包含基于 ScanNet 筛选的数据集和标准评估协议。
提出了 SAB3R 模型，这是一个统一的框架，能够通过高效的蒸馏策略，从无位姿图像中并发执行开放词汇分割和3D重建。
设计了有效的多任务学习策略，在将2D语义特征（如 CLIP 和 DINO）蒸馏进3D模型的同时，保留了原有的深度估计和位姿估计能力，避免了灾难性遗忘。

Card 04 方法描述

方法描述

模型架构基于 MASt3R（包含ViT-Large编码器、ViT-Base解码器和DPT头），在原有预测点图和置信度图的基础上，增加了额外的预测头来回归 DINO 和 CLIP 的密集特征。
采用特征蒸馏的方法，利用 FeatUp 生成的密集像素特征作为监督信号，通过回归损失 $\mathcal{L}_{2D}$ 引导模型学习语义信息。
总损失函数结合了来自 DUSt3R 的置信度损失、来自 MASt3R 的匹配损失以及2D特征蒸馏损失，通过超参数加权优化，实现了几何重建与语义理解的统一。

Card 05 数据集与资源

数据集与资源

使用的数据集主要源自 ScanNet，从中筛选了24个多样化的室内场景，并使用了 NYU40 类别分类法进行语义标注。
涉及的教师模型和基础框架包括 MASt3R、CLIP、MaskCLIP、DINOv2 以及 FeatUp。
原文未明确提及具体的GPU型号或训练时长，但详细描述了基于上述数据集和模型的训练配置。

Card 06 评估与结果

评估与结果

评估环境涵盖了零样本3D任务（单目深度估计、相对相机位姿）和零样本开放词汇任务（语义分割）以及新提出的 Map and Locate 任务。
主要评估指标包括 mIoU（平均交并比）、Acc（准确率）、mComp（平均完整度）和 mdComp（中值完整度），用于量化分割精度和点云重建质量。
实验结果表明，与单独部署 MASt3R 和 CLIP 相比，统一的 SAB3R 模型在 Map and Locate 基准上取得了更优的性能，并证明了其在联合进行几何重建和语义分割方面的有效性。