一眼看懂
封面预览
论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D…
- 论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D…
- 核心目标是通过引入多样化的点云数据(模拟器、传感器、模型预测)来增强 VLA 模型的空间理解能力和鲁棒性,解决 3D 数据稀缺和跨环境域差异的…
- 研究发现,显式地将视觉输入提升为点云并与 2D 表示融合,相比于隐式的深度先验或 2D 深度图输入,能更有效地提升精细操作任务的性能。
Card 01
研究单位
研究单位
- 论文作者包括 Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Yuxiang Lu, Zhuoling Li, Mi Yan, Yujia Zhang, Zhizheng Zhang, He Wang, Hengshuang Zhao。
- 注:提供的 HTML 原文片段中未明确列出作者所属的具体研究机构名称。
Card 02
论文概述
论文概述
- 论文针对现有 Vision-Language-Action (VLA) 模型主要依赖 2D 图像导致空间理解能力受限的问题,提出了 Any3D-VLA 框架。
- 核心目标是通过引入多样化的点云数据(模拟器、传感器、模型预测)来增强 VLA 模型的空间理解能力和鲁棒性,解决 3D 数据稀缺和跨环境域差异的问题。
- 研究发现,显式地将视觉输入提升为点云并与 2D 表示融合,相比于隐式的深度先验或 2D 深度图输入,能更有效地提升精细操作任务的性能。
Card 03
核心贡献
核心贡献
- 提出了 Any3D-VLA,这是一个通用的、模块化的插件式流程,通过将视觉输入提升为点云、进行 3D 压缩并与 2D Patch 表示融合,将 3D 表示注入到 VLA 模型中。
- 设计了 混合点云训练策略,统一了模拟器、传感器和模型估计的点云来源,构建了多样化的训练输入,以学习与域无关的 3D 表示,从而缓解 Sim-to-Real 的域差距。
- 构建了一个大规模的合成 RGBD 预训练数据集,包含 Objaverse LVIS 子集的 290 个类别和 10,680 个实例,用于支持 VLA 任务的研究。
- 在模拟仿真和真实世界环境中进行了广泛评估,证明了该方法在复杂场景下的优越性能,且在深度输入存在噪声或尺度偏差时仍保持鲁棒。
Card 04
方法描述
方法描述
- 点云构建与压缩:利用相机内参将 RGBD 图像提升为 3D 点云,并通过 3D 网格采样进行压缩,以降低计算成本并获得更均匀的空间表示。
- 视觉编码器:使用预训练的点云编码器 Concerto 提取 3D 特征,使用 DINOv2-L 和 SigLIP 提取 2D 图像特征。
- Patch 对齐与融合:提出 Patch-Wise Alignment,将 3D 点特征投影回 2D 图像平面进行聚合对齐;通过 门控残差融合 机制将 3D Token 作为 2D Token 的修正项进行融合,保留预训练的 2D 表示能力。
- 训练策略:结合 InternLM2 1.8B 作为 VLM 主干和条件流匹配动作专家,采用混合点云数据进行联合训练,使模型适应不同来源的点云质量差异。
Card 05
数据集与资源
数据集与资源
- 合成数据集:基于 Objaverse LVIS 子集构建,包含 290 个类别和 10,680 个实例,使用 Isaac Sim 渲染,并使用 BoDex 和 CuRobo 生成轨迹。
- 公开基准:LIBERO (Object, Goal, Long, Spatial) 和 CALVIN (ABC→D) 用于模拟环境评估。
- 真实世界数据:用于后训练的真实世界演示数据(如插花任务和放置调料杯任务)。
- 深度估计模型:使用 Depth Anything 3, UniDepthV2, MapAnything 进行模型估计的点云构建。
- 传感器:真实世界部署使用 RealSense D435 相机。
Card 06
评估与结果
评估与结果
- 评估环境:在模拟环境(LIBERO, CALVIN 及自建基准)和真实机器人平台上进行评估,包含零样本泛化和少样本后训练场景。
- 对比模型:$\pi_{0.5}$, GraspVLA, SpatialVLA。
- 主要指标:成功率、平均成功率。
- 关键结果:
- 在真实世界零样本评估中,Any3D-VLA 达到了 62.5% 的平均成功率,相比最强基线 SpatialVLA (33.3%) 提升了 29.2%。
- 在后训练任务中,最高成功率达到 93.3%,显著优于基线模型。
- 在模拟基准测试中,相比于仅使用 2D 输入,点云-2D Patch 融合方法将 Test SR 从 72.6% 提升至 80.0%。
- 在 LIBERO 基准上,相比 GraspVLA 提升了 13.9%;在 CALVIN 上平均长度增加了 0.71。