返回列表 VLA / Vision-Language-Action 每日论文卡
Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds
论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D…

论文详情

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds

2026-01-31 · 原文 · 翻译 · 2602.00807

论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D-VLA 框架。 核心目标是通过引入多样化的点云数据(模拟器、传感器、模型预测)来增强 VLA 模型的空间理解能力和鲁棒性,解决 3D 数据稀缺和跨环境域差异的问题。 研究发现,显式地将视觉输入提升为点云并与 2D 表示融合,相比于隐式的深度先验或 2D 深度图输入,能更有效…

7 分钟读完 6 张阅读卡 论文作者包括 Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Y…
一眼看懂 封面预览

论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D…

  • 论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D…
  • 核心目标是通过引入多样化的点云数据(模拟器、传感器、模型预测)来增强 VLA 模型的空间理解能力和鲁棒性,解决 3D 数据稀缺和跨环境域差异的…
  • 研究发现,显式地将视觉输入提升为点云并与 2D 表示融合,相比于隐式的深度先验或 2D 深度图输入,能更有效地提升精细操作任务的性能。
Card 01 研究单位

研究单位

  • 论文作者包括 Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Yuxiang Lu, Zhuoling Li, Mi Yan, Yujia Zhang, Zhizheng Zhang, He Wang, Hengshuang Zhao
  • 注:提供的 HTML 原文片段中未明确列出作者所属的具体研究机构名称。
Card 02 论文概述

论文概述

  • 论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D-VLA 框架。
  • 核心目标是通过引入多样化的点云数据(模拟器、传感器、模型预测)来增强 VLA 模型的空间理解能力和鲁棒性,解决 3D 数据稀缺和跨环境域差异的问题。
  • 研究发现,显式地将视觉输入提升为点云并与 2D 表示融合,相比于隐式的深度先验或 2D 深度图输入,能更有效地提升精细操作任务的性能。
Card 03 核心贡献

核心贡献

  • 提出了 Any3D-VLA,这是一个通用的、模块化的插件式流程,通过将视觉输入提升为点云、进行 3D 压缩并与 2D Patch 表示融合,将 3D 表示注入到 VLA 模型中。
  • 设计了 混合点云训练策略,统一了模拟器、传感器和模型估计的点云来源,构建了多样化的训练输入,以学习与域无关的 3D 表示,从而缓解 Sim-to-Real 的域差距。
  • 构建了一个大规模的合成 RGBD 预训练数据集,包含 Objaverse LVIS 子集的 290 个类别和 10,680 个实例,用于支持 VLA 任务的研究。
  • 在模拟仿真和真实世界环境中进行了广泛评估,证明了该方法在复杂场景下的优越性能,且在深度输入存在噪声或尺度偏差时仍保持鲁棒。
Card 04 方法描述

方法描述

  • 点云构建与压缩:利用相机内参将 RGBD 图像提升为 3D 点云,并通过 3D 网格采样进行压缩,以降低计算成本并获得更均匀的空间表示。
  • 视觉编码器:使用预训练的点云编码器 Concerto 提取 3D 特征,使用 DINOv2-LSigLIP 提取 2D 图像特征。
  • Patch 对齐与融合:提出 Patch-Wise Alignment,将 3D 点特征投影回 2D 图像平面进行聚合对齐;通过 门控残差融合 机制将 3D Token 作为 2D Token 的修正项进行融合,保留预训练的 2D 表示能力。
  • 训练策略:结合 InternLM2 1.8B 作为 VLM 主干和条件流匹配动作专家,采用混合点云数据进行联合训练,使模型适应不同来源的点云质量差异。
Card 05 数据集与资源

数据集与资源

  • 合成数据集:基于 Objaverse LVIS 子集构建,包含 290 个类别和 10,680 个实例,使用 Isaac Sim 渲染,并使用 BoDexCuRobo 生成轨迹。
  • 公开基准LIBERO (Object, Goal, Long, Spatial) 和 CALVIN (ABC→D) 用于模拟环境评估。
  • 真实世界数据:用于后训练的真实世界演示数据(如插花任务和放置调料杯任务)。
  • 深度估计模型:使用 Depth Anything 3, UniDepthV2, MapAnything 进行模型估计的点云构建。
  • 传感器:真实世界部署使用 RealSense D435 相机。
Card 06 评估与结果

评估与结果

  • 评估环境:在模拟环境(LIBERO, CALVIN 及自建基准)和真实机器人平台上进行评估,包含零样本泛化和少样本后训练场景。
  • 对比模型$\pi_{0.5}$, GraspVLA, SpatialVLA
  • 主要指标:成功率、平均成功率。
  • 关键结果

- 在真实世界零样本评估中,Any3D-VLA 达到了 62.5% 的平均成功率,相比最强基线 SpatialVLA (33.3%) 提升了 29.2%

- 在后训练任务中,最高成功率达到 93.3%,显著优于基线模型。

- 在模拟基准测试中,相比于仅使用 2D 输入,点云-2D Patch 融合方法将 Test SR 从 72.6% 提升至 80.0%

- 在 LIBERO 基准上,相比 GraspVLA 提升了 13.9%;在 CALVIN 上平均长度增加了 0.71