返回列表 VLA / Vision-Language-Action 每日论文卡
3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models
研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中,以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。

论文详情

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

2026-03-25 · 原文 · 翻译 · 2603.24393

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中,以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。 通过系统比较九种 VGGT 融合策略,发现 语义条件门控融合 效果最佳,并据此提出即插即用模块 3D-Mix。 旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。

4 分钟读完 6 张阅读卡 哈尔滨工业大学 (HIT)
一眼看懂 封面预览

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中,以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。

  • 研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中,以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。
  • 通过系统比较九种 VGGT 融合策略,发现 语义条件门控融合 效果最佳,并据此提出即插即用模块 3D-Mix。
  • 旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。
Card 01 研究单位

研究单位

  • 哈尔滨工业大学 (HIT)
  • 中关村创新中心 (ZGCA)
  • 中关村创新研究院 (ZGCI)
  • 华中科技大学 (HUST)
  • 香港科技大学 (广州) (HKUST(GZ))
  • 北京航空航天大学 (BUAA)
  • 华东师范大学 (ECNU)
  • DeepCybo
Card 02 论文概述

论文概述

  • 研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中,以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。
  • 通过系统比较九种 VGGT 融合策略,发现 语义条件门控融合 效果最佳,并据此提出即插即用模块 3D-Mix
  • 旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。
Card 03 核心贡献

核心贡献

  • 首次对VLA模型中的 VGGT 集成方案进行了系统性研究,评估了九种融合策略。
  • 提出了轻量级即插即用模块 3D-Mix,通过自适应门控机制实现2D语义与3D几何特征的原则性融合。
  • 在多种VLA架构和MLLM骨干网络上验证了 3D-Mix 的通用性和有效性,提供了实用的实施指南。
Card 04 方法描述

方法描述

  • 3D-Mix 模块基于语义条件自适应门控原理工作,动态融合来自MLLM的2D语义特征和来自 VGGT 的3D几何特征。
  • 核心创新在于使用一个可学习的门控网络,该网络基于全局语义上下文和局部几何特征,为每个空间位置计算位置特定的融合权重。
  • 该模块作为MLLM与动作专家之间的桥梁,无需修改现有模型内部组件即可集成到 GR00T-styleπ-style 等不同VLA架构中。
Card 05 数据集与资源

数据集与资源

  • 训练数据集Open X-Embodiment 数据集中的 BridgeV2 子集。
  • 评估基准SIMPLER(域外、real-to-sim基准)和 LIBERO(域内多任务基准)。
  • 模型规模:评估了六种MLLM系列的九个模型变体,参数量在 2B–8B 之间。
  • 训练资源:使用 8× NVIDIA H100 GPU 进行训练,采用 DeepSpeed ZeRO-2 优化。
Card 06 评估与结果

评估与结果

  • 评估环境:在 GR00T-styleπ-style 两种VLA架构上进行评估。
  • 主要指标:任务平均成功率。
  • 关键结果3D-Mix 在所有评估的MLLM骨干网络上均带来一致的性能提升。在 GR00T-style 架构上,于域外 SIMPLER 基准上九个变体平均提升 +7.0%,其中 RynnBrain-8B 提升高达 +12.51%。在 π-style 架构上也取得了显著的性能提升。