提出 MetricAnything 框架，解决从噪声、异构 3D 数据源学习度量深度的问题，实现度量深度估计的规模化预训练

论文详情

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

2026-01-29 · 原文 · 翻译 · 2601.22054

提出 MetricAnything 框架，解决从噪声、异构 3D 数据源学习度量深度的问题，实现度量深度估计的规模化预训练核心创新是 Sparse Metric Prompt（稀疏度量提示），通过随机遮蔽深度图创建通用接口，将空间推理与传感器偏差解耦聚合约 2000万图像-深度对，涵盖超过 10,000 种相机模型，包括重建 3D 数据（ SfM/SLAM/MVS）、捕获 3D 数据（LiDAR/ToF/RG…

6 分钟读完 6 张阅读卡 Li Auto Inc（理想汽车）：Baorui Ma、Jiahui Yang（同等贡献）、Dongl…

一眼看懂封面预览

提出 MetricAnything 框架，解决从噪声、异构 3D 数据源学习度量深度的问题，实现度量深度估计的规模化预训练

提出 MetricAnything 框架，解决从噪声、异构 3D 数据源学习度量深度的问题，实现度量深度估计的规模化预训练
核心创新是 Sparse Metric Prompt（稀疏度量提示），通过随机遮蔽深度图创建通用接口，将空间推理与传感器偏差解耦
聚合约 2000万图像-深度对，涵盖超过 10,000 种相机模型，包括重建 3D 数据（ SfM/SLAM/MVS）、捕获 3D 数据（L…

Card 01 研究单位

研究单位

Li Auto Inc（理想汽车）：Baorui Ma、Jiahui Yang（同等贡献）、Donglin Di、Xuancheng Zhang、Jianxun Cui、Hao Li、Xie Yan、Wei Chen

Card 02 论文概述

论文概述

提出 MetricAnything 框架，解决从噪声、异构 3D 数据源学习度量深度的问题，实现度量深度估计的规模化预训练
核心创新是 Sparse Metric Prompt（稀疏度量提示），通过随机遮蔽深度图创建通用接口，将空间推理与传感器偏差解耦
聚合约 2000万 图像-深度对，涵盖超过 10,000 种相机模型，包括重建 3D 数据（ SfM/SLAM/MVS）、捕获 3D 数据（LiDAR/ToF/RGB-D）和渲染 3D 数据

Card 03 核心贡献

核心贡献

Sparse Metric Prompt 预训练范式：使用随机采样的稀疏深度点作为提示，使模型学习处理不同密度、结构和噪声模式的提示，实现可扩展的度量深度预训练
数据驱动的去噪学习：模型从自然异构数据中学习，摒弃人工设计的提示工程，证明噪声数据可以作为有效的训练信号
无提示学生模型蒸馏：通过教师模型生成高质量伪标签，训练学生模型执行无提示的密集深度预测，实现更广泛的实际应用
距离平衡逆深度损失：设计新损失函数，在近处区域保持细粒度敏感性的同时，扩展对远距离区域的有效监督
ViT-DPT 架构改进：反转传统跳跃连接，将深层 ViT 特征注入靠近输出的解码层，充分利用教师模型伪标签中的丰富语义线索

Card 04 方法描述

方法描述

多源数据收集：标准化为度量深度图 G 和有效性掩码 M，聚合三类数据源（重建、捕获、渲染3D数据）
稀疏度量提示预训练：从深度图随机采样 2,000-40,000 个有效像素构建提示 P，使用预训练深度模型进行像素级深度尺度对齐（PDSA）和全局度量深度恢复（GMDR）进行提示准备，采用条件化 DPT 头进行提示注入
无提示模型蒸馏：教师模型生成密集伪标签训练学生模型，设计距离平衡逆深度损失和改进的学生网络架构
训练目标：使用 MAE 损失和尺度-位移不变梯度损失（SSI-MAGE），对真实数据采用鲁棒 MAE 损失（丢弃最高损失区域）

Card 05 数据集与资源

数据集与资源

使用约 2000万 图像-深度对，涵盖 10,000+ 相机模型
数据来源：ARKitScenes、DeepMVS、SMD-Nets、FoundationStereo、DrivingStereo、UASOL、Cityscapes、nuScenes、Waymo Open Dataset、Argoverse 2、Matterport3D、Replica、ScanNet、Habitat-Matterport 3D、Mapillary、Synscapes、Mid-Air、HyperSim、TartanAir、Apollo 等
基于 DepthPro 架构，使用 ViT-DPT 解码器

Card 06 评估与结果

评估与结果

零样本深度超分辨率和完成：在 NYUv2、ETH3D、KITTI 数据集上，8× 下采样、16× 下采样、LiDAR 稀疏扫描、极稀疏（100点）四种提示类型均取得最优或接近最优结果
雷达-相机深度估计：在 nuScenes 数据集上，微调预训练模型后 MAE 从 1335.4 降至 651.4mm，性能几乎翻倍
单目深度估计：Student-DepthMap 在 ETH3D、Booster、NuScenes、Sun-RGBD、Sintel、Middlebury 等数据集上，δ1 准确率平均排名第一，在多个数据集上达到最优