该论文提出 Utonia，旨在训练一个统一的点云自监督学习（SSL）编码器，能够处理来自不同领域的点云数据，包括遥感、户外激光雷达、室内 RG…

论文详情

Utonia: Toward One Encoder for All Point Clouds

2026-03-03 · 原文 · 翻译 · 2603.03283

该论文提出 Utonia，旨在训练一个统一的点云自监督学习（SSL）编码器，能够处理来自不同领域的点云数据，包括遥感、户外激光雷达、室内 RGB-D 序列、物体级 CAD 模型以及从纯 RGB 视频中提取的点云当前点云 SSL 领域仍然按领域分割（domain-fragmented），不同领域需要不同模型，本文首次尝试用一个编码器覆盖所有领域通过识别三个阻碍统一的核心问题（模态可用性不一致、稀疏度/密度差异、感…

5 分钟读完 6 张阅读卡香港大学 (The University of Hong Kong)

一眼看懂封面预览

该论文提出 Utonia，旨在训练一个统一的点云自监督学习（SSL）编码器，能够处理来自不同领域的点云数据，包括遥感、户外激光雷达、室内 RG…

该论文提出 Utonia，旨在训练一个统一的点云自监督学习（SSL）编码器，能够处理来自不同领域的点云数据，包括遥感、户外激光雷达、室内 RG…
当前点云 SSL 领域仍然按领域分割（domain-fragmented），不同领域需要不同模型，本文首次尝试用一个编码器覆盖所有领域
通过识别三个阻碍统一的核心问题（模态可用性不一致、稀疏度/密度差异、感知粒度变化），并提出相应的技术解决方案

Card 01 研究单位

研究单位

香港大学 (The University of Hong Kong)
香港中文大学 (The Chinese University of Hong Kong)
小米 (Xiaomi)

Card 02 论文概述

论文概述

该论文提出 Utonia，旨在训练一个统一的点云自监督学习（SSL）编码器，能够处理来自不同领域的点云数据，包括遥感、户外激光雷达、室内 RGB-D 序列、物体级 CAD 模型以及从纯 RGB 视频中提取的点云
当前点云 SSL 领域仍然按领域分割（domain-fragmented），不同领域需要不同模型，本文首次尝试用一个编码器覆盖所有领域
通过识别三个阻碍统一的核心问题（模态可用性不一致、稀疏度/密度差异、感知粒度变化），并提出相应的技术解决方案

Card 03 核心贡献

核心贡献

首次提出统一的点云编码器，支持室内、户外、物体级和视频提取等多领域点云
识别了跨领域联合训练的三大阻碍：感知粒度偏移、重力方向偏见、模态可用性不一致
提出三种技术方案：Causal Modality Blinding（因果模态遮蔽）、Perceptual Granularity Rescale（感知粒度重缩放）、RoPE 增强的位置编码
发现联合预训练会产生新兴行为：各领域数据相互促进而非相互竞争
编码器特征可迁移到下游任务，包括机器人操作和视觉语言模型的空

间推理

Card 04 方法描述

方法描述

基于 Point Transformer V3 (PTv3) 作为骨干网络
采用 teacher-student 自蒸馏预训练方法（继承自 Sonata 和 Concerto）
Causal Modality Blinding：随机丢弃颜色、法线等模态组，使模型在模态缺失时仍能正常工作
Perceptual Granularity Rescale：将不同域的点云坐标缩放至统一的感知粒度，确保空间单位可比
RoPE on Granularity-Aligned Coordinates：在粒度对齐的坐标上应用旋转位置编码（RoPE），增强跨域几何编码的可迁移性
联合训练 250k 跨域点云 + 1M CAD 资产

Card 05 数据集与资源

数据集与资源

训练数据：250k 跨域点云 + 1M CAD 资产
骨干模型：Point Transformer V3 (PTv3)，约 124.8M 参数
对比方法：PointMAE、PointM2AE、MSC、Sonata、Concerto

Card 06 评估与结果

评估与结果

室内语义分割：在 ScanNet、ScanNet200、ScanNet++、S3DIS 上验证，Utonia 线性探测 mIoU 达 77.7（ScanNet），微调后达 81.1
户外语义分割：在 NuScenes、Waymo、SemanticKITTI 上验证，Utonia 户外线性探测表现优于 Concerto
跨域语义相似性：在玩具车（CAD）与真实汽车（户外 LiDAR）之间的语义匹配中，Utonia 展示出跨域语义对齐能力，而 Concerto 失败
新兴行为：联合预训练使各领域均受益，而非零和博弈；模型保留了场景级重力对齐同时对物体级几何保持旋转不变性