一眼看懂
封面预览
论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计…
- 论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计…
- 为了解决这一任务,论文提出了一个简单有效的基线模型 SAB3R,该模型基于 MASt3R 构建,通过轻量级蒸馏策略将 CLIP 和 DINOv…
- 该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题,实现了在单次前向传播中同时生成密集语义特征和构建一致点图。
Card 01
研究单位
研究单位
- University of Virginia
- University of Michigan
Card 02
论文概述
论文概述
- 论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计场景的3D结构),旨在从无位姿视频中生成点云并分割目标对象。
- 为了解决这一任务,论文提出了一个简单有效的基线模型 SAB3R,该模型基于 MASt3R 构建,通过轻量级蒸馏策略将 CLIP 和 DINOv2 等2D视觉主干网络的语义特征融入3D重建框架。
- 该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题,实现了在单次前向传播中同时生成密集语义特征和构建一致点图。
Card 03
核心贡献
核心贡献
- 提出了 Map and Locate 基准测试,这是一个统一了重建、重组和识别任务的多视图3D语义分割新基准,包含基于 ScanNet 筛选的数据集和标准评估协议。
- 提出了 SAB3R 模型,这是一个统一的框架,能够通过高效的蒸馏策略,从无位姿图像中并发执行开放词汇分割和3D重建。
- 设计了有效的多任务学习策略,在将2D语义特征(如 CLIP 和 DINO)蒸馏进3D模型的同时,保留了原有的深度估计和位姿估计能力,避免了灾难性遗忘。
Card 04
方法描述
方法描述
- 模型架构基于 MASt3R(包含ViT-Large编码器、ViT-Base解码器和DPT头),在原有预测点图和置信度图的基础上,增加了额外的预测头来回归 DINO 和 CLIP 的密集特征。
- 采用特征蒸馏的方法,利用 FeatUp 生成的密集像素特征作为监督信号,通过回归损失 $\mathcal{L}_{2D}$ 引导模型学习语义信息。
- 总损失函数结合了来自 DUSt3R 的置信度损失、来自 MASt3R 的匹配损失以及2D特征蒸馏损失,通过超参数加权优化,实现了几何重建与语义理解的统一。
Card 05
数据集与资源
数据集与资源
- 使用的数据集主要源自 ScanNet,从中筛选了24个多样化的室内场景,并使用了 NYU40 类别分类法进行语义标注。
- 涉及的教师模型和基础框架包括 MASt3R、CLIP、MaskCLIP、DINOv2 以及 FeatUp。
- 原文未明确提及具体的GPU型号或训练时长,但详细描述了基于上述数据集和模型的训练配置。
Card 06
评估与结果
评估与结果
- 评估环境涵盖了零样本3D任务(单目深度估计、相对相机位姿)和零样本开放词汇任务(语义分割)以及新提出的 Map and Locate 任务。
- 主要评估指标包括 mIoU(平均交并比)、Acc(准确率)、mComp(平均完整度)和 mdComp(中值完整度),用于量化分割精度和点云重建质量。
- 实验结果表明,与单独部署 MASt3R 和 CLIP 相比,统一的 SAB3R 模型在 Map and Locate 基准上取得了更优的性能,并证明了其在联合进行几何重建和语义分割方面的有效性。