Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题，提出了 Any3D…

Card 01 研究单位

研究单位

论文作者包括 Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Yuxiang Lu, Zhuoling Li, Mi Yan, Yujia Zhang, Zhizheng Zhang, He Wang, Hengshuang Zhao。
注：提供的 HTML 原文片段中未明确列出作者所属的具体研究机构名称。

Card 02 论文概述

论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题，提出了 Any3D-VLA 框架。
核心目标是通过引入多样化的点云数据（模拟器、传感器、模型预测）来增强 VLA 模型的空间理解能力和鲁棒性，解决 3D 数据稀缺和跨环境域差异的问题。
研究发现，显式地将视觉输入提升为点云并与 2D 表示融合，相比于隐式的深度先验或 2D 深度图输入，能更有效地提升精细操作任务的性能。

Card 03 核心贡献

提出了 Any3D-VLA，这是一个通用的、模块化的插件式流程，通过将视觉输入提升为点云、进行 3D 压缩并与 2D Patch 表示融合，将 3D 表示注入到 VLA 模型中。
设计了 混合点云训练策略，统一了模拟器、传感器和模型估计的点云来源，构建了多样化的训练输入，以学习与域无关的 3D 表示，从而缓解 Sim-to-Real 的域差距。
构建了一个大规模的合成 RGBD 预训练数据集，包含 Objaverse LVIS 子集的 290 个类别和 10,680 个实例，用于支持 VLA 任务的研究。
在模拟仿真和真实世界环境中进行了广泛评估，证明了该方法在复杂场景下的优越性能，且在深度输入存在噪声或尺度偏差时仍保持鲁棒。

Card 04 方法描述

点云构建与压缩：利用相机内参将 RGBD 图像提升为 3D 点云，并通过 3D 网格采样进行压缩，以降低计算成本并获得更均匀的空间表示。
视觉编码器：使用预训练的点云编码器 Concerto 提取 3D 特征，使用 DINOv2-L 和 SigLIP 提取 2D 图像特征。
Patch 对齐与融合：提出 Patch-Wise Alignment，将 3D 点特征投影回 2D 图像平面进行聚合对齐；通过 门控残差融合 机制将 3D Token 作为 2D Token 的修正项进行融合，保留预训练的 2D 表示能力。
训练策略：结合 InternLM2 1.8B 作为 VLM 主干和条件流匹配动作专家，采用混合点云数据进行联合训练，使模型适应不同来源的点云质量差异。

Card 05 数据集与资源

合成数据集：基于 Objaverse LVIS 子集构建，包含 290 个类别和 10,680 个实例，使用 Isaac Sim 渲染，并使用 BoDex 和 CuRobo 生成轨迹。
公开基准：LIBERO (Object, Goal, Long, Spatial) 和 CALVIN (ABC→D) 用于模拟环境评估。
真实世界数据：用于后训练的真实世界演示数据（如插花任务和放置调料杯任务）。
深度估计模型：使用 Depth Anything 3, UniDepthV2, MapAnything 进行模型估计的点云构建。
传感器：真实世界部署使用 RealSense D435 相机。

Card 06 评估与结果

- 在真实世界零样本评估中，Any3D-VLA 达到了 62.5% 的平均成功率，相比最强基线 SpatialVLA (33.3%) 提升了 29.2%。

- 在后训练任务中，最高成功率达到 93.3%，显著优于基线模型。

- 在模拟基准测试中，相比于仅使用 2D 输入，点云-2D Patch 融合方法将 Test SR 从 72.6% 提升至 80.0%。

- 在 LIBERO 基准上，相比 GraspVLA 提升了 13.9%；在 CALVIN 上平均长度增加了 0.71。