返回列表 VLA / Vision-Language-Action 每日论文卡

SAB3R: Semantic-Augmented Backbone in 3D Reconstruction

论文详情

SAB3R: Semantic-Augmented Backbone in 3D Reconstruction

2025-06-02 · 原文 · 翻译 · 2506.02112

论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计场景的3D结构),旨在从无位姿视频中生成点云并分割目标对象。 为了解决这一任务,论文提出了一个简单有效的基线模型 SAB3R,该模型基于 MASt3R 构建,通过轻量级蒸馏策略将 CLIP 和 DINOv2 等2D视觉主干网络的语义特征融入3D重建框架。 该研究解决了现有方法…

5 分钟读完 6 张阅读卡 University of Virginia
一眼看懂 封面预览

论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计…

  • 论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计…
  • 为了解决这一任务,论文提出了一个简单有效的基线模型 SAB3R,该模型基于 MASt3R 构建,通过轻量级蒸馏策略将 CLIP 和 DINOv…
  • 该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题,实现了在单次前向传播中同时生成密集语义特征和构建一致点图。
Card 01 研究单位

研究单位

  • University of Virginia
  • University of Michigan
Card 02 论文概述

论文概述

  • 论文提出了一个新的任务 Map and Locate,该任务统一了开放词汇语义分割(基于自然语言查询检测和分割实例)与3D重建(从视觉输入估计场景的3D结构),旨在从无位姿视频中生成点云并分割目标对象。
  • 为了解决这一任务,论文提出了一个简单有效的基线模型 SAB3R,该模型基于 MASt3R 构建,通过轻量级蒸馏策略将 CLIPDINOv2 等2D视觉主干网络的语义特征融入3D重建框架。
  • 该研究解决了现有方法依赖预扫描点云、精确相机位姿或昂贵的测试时优化的问题,实现了在单次前向传播中同时生成密集语义特征和构建一致点图。
Card 03 核心贡献

核心贡献

  • 提出了 Map and Locate 基准测试,这是一个统一了重建、重组和识别任务的多视图3D语义分割新基准,包含基于 ScanNet 筛选的数据集和标准评估协议。
  • 提出了 SAB3R 模型,这是一个统一的框架,能够通过高效的蒸馏策略,从无位姿图像中并发执行开放词汇分割和3D重建。
  • 设计了有效的多任务学习策略,在将2D语义特征(如 CLIPDINO)蒸馏进3D模型的同时,保留了原有的深度估计和位姿估计能力,避免了灾难性遗忘。
Card 04 方法描述

方法描述

  • 模型架构基于 MASt3R(包含ViT-Large编码器、ViT-Base解码器和DPT头),在原有预测点图和置信度图的基础上,增加了额外的预测头来回归 DINOCLIP 的密集特征。
  • 采用特征蒸馏的方法,利用 FeatUp 生成的密集像素特征作为监督信号,通过回归损失 $\mathcal{L}_{2D}$ 引导模型学习语义信息。
  • 总损失函数结合了来自 DUSt3R 的置信度损失、来自 MASt3R 的匹配损失以及2D特征蒸馏损失,通过超参数加权优化,实现了几何重建与语义理解的统一。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集主要源自 ScanNet,从中筛选了24个多样化的室内场景,并使用了 NYU40 类别分类法进行语义标注。
  • 涉及的教师模型和基础框架包括 MASt3RCLIPMaskCLIPDINOv2 以及 FeatUp
  • 原文未明确提及具体的GPU型号或训练时长,但详细描述了基于上述数据集和模型的训练配置。
Card 06 评估与结果

评估与结果

  • 评估环境涵盖了零样本3D任务(单目深度估计、相对相机位姿)和零样本开放词汇任务(语义分割)以及新提出的 Map and Locate 任务。
  • 主要评估指标包括 mIoU(平均交并比)、Acc(准确率)、mComp(平均完整度)和 mdComp(中值完整度),用于量化分割精度和点云重建质量。
  • 实验结果表明,与单独部署 MASt3RCLIP 相比,统一的 SAB3R 模型在 Map and Locate 基准上取得了更优的性能,并证明了其在联合进行几何重建和语义分割方面的有效性。