返回列表 VLA / Vision-Language-Action 每日论文卡
Utonia: Toward One Encoder for All Point Clouds
该论文提出 Utonia,旨在训练一个统一的点云自监督学习(SSL)编码器,能够处理来自不同领域的点云数据,包括遥感、户外激光雷达、室内 RG…

论文详情

Utonia: Toward One Encoder for All Point Clouds

2026-03-03 · 原文 · 翻译 · 2603.03283

该论文提出 Utonia,旨在训练一个统一的点云自监督学习(SSL)编码器,能够处理来自不同领域的点云数据,包括遥感、户外激光雷达、室内 RGB-D 序列、物体级 CAD 模型以及从纯 RGB 视频中提取的点云 当前点云 SSL 领域仍然按领域分割(domain-fragmented),不同领域需要不同模型,本文首次尝试用一个编码器覆盖所有领域 通过识别三个阻碍统一的核心问题(模态可用性不一致、稀疏度/密度差异、感…

5 分钟读完 6 张阅读卡 香港大学 (The University of Hong Kong)
一眼看懂 封面预览

该论文提出 Utonia,旨在训练一个统一的点云自监督学习(SSL)编码器,能够处理来自不同领域的点云数据,包括遥感、户外激光雷达、室内 RG…

  • 该论文提出 Utonia,旨在训练一个统一的点云自监督学习(SSL)编码器,能够处理来自不同领域的点云数据,包括遥感、户外激光雷达、室内 RG…
  • 当前点云 SSL 领域仍然按领域分割(domain-fragmented),不同领域需要不同模型,本文首次尝试用一个编码器覆盖所有领域
  • 通过识别三个阻碍统一的核心问题(模态可用性不一致、稀疏度/密度差异、感知粒度变化),并提出相应的技术解决方案
Card 01 研究单位

研究单位

  • 香港大学 (The University of Hong Kong)
  • 香港中文大学 (The Chinese University of Hong Kong)
  • 小米 (Xiaomi)
Card 02 论文概述

论文概述

  • 该论文提出 Utonia,旨在训练一个统一的点云自监督学习(SSL)编码器,能够处理来自不同领域的点云数据,包括遥感、户外激光雷达、室内 RGB-D 序列、物体级 CAD 模型以及从纯 RGB 视频中提取的点云
  • 当前点云 SSL 领域仍然按领域分割(domain-fragmented),不同领域需要不同模型,本文首次尝试用一个编码器覆盖所有领域
  • 通过识别三个阻碍统一的核心问题(模态可用性不一致、稀疏度/密度差异、感知粒度变化),并提出相应的技术解决方案
Card 03 核心贡献

核心贡献

  • 首次提出统一的点云编码器,支持室内、户外、物体级和视频提取等多领域点云
  • 识别了跨领域联合训练的三大阻碍:感知粒度偏移、重力方向偏见、模态可用性不一致
  • 提出三种技术方案:Causal Modality Blinding(因果模态遮蔽)、Perceptual Granularity Rescale(感知粒度重缩放)、RoPE 增强的位置编码
  • 发现联合预训练会产生新兴行为:各领域数据相互促进而非相互竞争
  • 编码器特征可迁移到下游任务,包括机器人操作和视觉语言模型的空

间推理

Card 04 方法描述

方法描述

  • 基于 Point Transformer V3 (PTv3) 作为骨干网络
  • 采用 teacher-student 自蒸馏预训练方法(继承自 Sonata 和 Concerto)
  • Causal Modality Blinding:随机丢弃颜色、法线等模态组,使模型在模态缺失时仍能正常工作
  • Perceptual Granularity Rescale:将不同域的点云坐标缩放至统一的感知粒度,确保空间单位可比
  • RoPE on Granularity-Aligned Coordinates:在粒度对齐的坐标上应用旋转位置编码(RoPE),增强跨域几何编码的可迁移性
  • 联合训练 250k 跨域点云 + 1M CAD 资产
Card 05 数据集与资源

数据集与资源

  • 训练数据:250k 跨域点云 + 1M CAD 资产
  • 骨干模型:Point Transformer V3 (PTv3),约 124.8M 参数
  • 对比方法:PointMAE、PointM2AE、MSC、Sonata、Concerto
Card 06 评估与结果

评估与结果

  • 室内语义分割:在 ScanNet、ScanNet200、ScanNet++、S3DIS 上验证,Utonia 线性探测 mIoU 达 77.7(ScanNet),微调后达 81.1
  • 户外语义分割:在 NuScenes、Waymo、SemanticKITTI 上验证,Utonia 户外线性探测表现优于 Concerto
  • 跨域语义相似性:在玩具车(CAD)与真实汽车(户外 LiDAR)之间的语义匹配中,Utonia 展示出跨域语义对齐能力,而 Concerto 失败
  • 新兴行为:联合预训练使各领域均受益,而非零和博弈;模型保留了场景级重力对齐同时对物体级几何保持旋转不变性