一眼看懂
封面预览
提出 MetricAnything 框架,解决从噪声、异构 3D 数据源学习度量深度的问题,实现度量深度估计的规模化预训练
- 提出 MetricAnything 框架,解决从噪声、异构 3D 数据源学习度量深度的问题,实现度量深度估计的规模化预训练
- 核心创新是 Sparse Metric Prompt(稀疏度量提示),通过随机遮蔽深度图创建通用接口,将空间推理与传感器偏差解耦
- 聚合约 2000万 图像-深度对,涵盖超过 10,000 种相机模型,包括重建 3D 数据( SfM/SLAM/MVS)、捕获 3D 数据(L…
Card 01
研究单位
研究单位
- Li Auto Inc(理想汽车):Baorui Ma、Jiahui Yang(同等贡献)、Donglin Di、Xuancheng Zhang、Jianxun Cui、Hao Li、Xie Yan、Wei Chen
Card 02
论文概述
论文概述
- 提出 MetricAnything 框架,解决从噪声、异构 3D 数据源学习度量深度的问题,实现度量深度估计的规模化预训练
- 核心创新是 Sparse Metric Prompt(稀疏度量提示),通过随机遮蔽深度图创建通用接口,将空间推理与传感器偏差解耦
- 聚合约 2000万 图像-深度对,涵盖超过 10,000 种相机模型,包括重建 3D 数据( SfM/SLAM/MVS)、捕获 3D 数据(LiDAR/ToF/RGB-D)和渲染 3D 数据
Card 03
核心贡献
核心贡献
- Sparse Metric Prompt 预训练范式:使用随机采样的稀疏深度点作为提示,使模型学习处理不同密度、结构和噪声模式的提示,实现可扩展的度量深度预训练
- 数据驱动的去噪学习:模型从自然异构数据中学习,摒弃人工设计的提示工程,证明噪声数据可以作为有效的训练信号
- 无提示学生模型蒸馏:通过教师模型生成高质量伪标签,训练学生模型执行无提示的密集深度预测,实现更广泛的实际应用
- 距离平衡逆深度损失:设计新损失函数,在近处区域保持细粒度敏感性的同时,扩展对远距离区域的有效监督
- ViT-DPT 架构改进:反转传统跳跃连接,将深层 ViT 特征注入靠近输出的解码层,充分利用教师模型伪标签中的丰富语义线索
Card 04
方法描述
方法描述
- 多源数据收集:标准化为度量深度图 G 和有效性掩码 M,聚合三类数据源(重建、捕获、渲染3D数据)
- 稀疏度量提示预训练:从深度图随机采样 2,000-40,000 个有效像素构建提示 P,使用预训练深度模型进行像素级深度尺度对齐(PDSA)和全局度量深度恢复(GMDR)进行提示准备,采用条件化 DPT 头进行提示注入
- 无提示模型蒸馏:教师模型生成密集伪标签训练学生模型,设计距离平衡逆深度损失和改进的学生网络架构
- 训练目标:使用 MAE 损失和尺度-位移不变梯度损失(SSI-MAGE),对真实数据采用鲁棒 MAE 损失(丢弃最高损失区域)
Card 05
数据集与资源
数据集与资源
- 使用约 2000万 图像-深度对,涵盖 10,000+ 相机模型
- 数据来源:ARKitScenes、DeepMVS、SMD-Nets、FoundationStereo、DrivingStereo、UASOL、Cityscapes、nuScenes、Waymo Open Dataset、Argoverse 2、Matterport3D、Replica、ScanNet、Habitat-Matterport 3D、Mapillary、Synscapes、Mid-Air、HyperSim、TartanAir、Apollo 等
- 基于 DepthPro 架构,使用 ViT-DPT 解码器
Card 06
评估与结果
评估与结果
- 零样本深度超分辨率和完成:在 NYUv2、ETH3D、KITTI 数据集上,8× 下采样、16× 下采样、LiDAR 稀疏扫描、极稀疏(100点)四种提示类型均取得最优或接近最优结果
- 雷达-相机深度估计:在 nuScenes 数据集上,微调预训练模型后 MAE 从 1335.4 降至 651.4mm,性能几乎翻倍
- 单目深度估计:Student-DepthMap 在 ETH3D、Booster、NuScenes、Sun-RGBD、Sintel、Middlebury 等数据集上,δ1 准确率平均排名 第一,在多个数据集上达到最优