研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中，以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。

论文详情

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

2026-03-25 · 原文 · 翻译 · 2603.24393

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中，以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。通过系统比较九种 VGGT 融合策略，发现语义条件门控融合效果最佳，并据此提出即插即用模块 3D-Mix。旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。

4 分钟读完 6 张阅读卡哈尔滨工业大学 (HIT)

一眼看懂封面预览

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中，以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中，以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。
通过系统比较九种 VGGT 融合策略，发现语义条件门控融合效果最佳，并据此提出即插即用模块 3D-Mix。
旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。

Card 01 研究单位

研究单位

哈尔滨工业大学 (HIT)
中关村创新中心 (ZGCA)
中关村创新研究院 (ZGCI)
华中科技大学 (HUST)
香港科技大学 (广州) (HKUST(GZ))
北京航空航天大学 (BUAA)
华东师范大学 (ECNU)
DeepCybo

Card 02 论文概述

论文概述

研究如何将 VGGT 提供的3D几何信息有效集成到视觉-语言-动作模型中，以解决现有模型因主要在2D数据上预训练而导致的3D空间感知不足问题。
通过系统比较九种 VGGT 融合策略，发现 语义条件门控融合 效果最佳，并据此提出即插即用模块 3D-Mix。
旨在为增强VLA模型的空间智能提供一种原则性强、即插即用且广泛适用的解决方案。

Card 03 核心贡献

核心贡献

首次对VLA模型中的 VGGT 集成方案进行了系统性研究，评估了九种融合策略。
提出了轻量级即插即用模块 3D-Mix，通过自适应门控机制实现2D语义与3D几何特征的原则性融合。
在多种VLA架构和MLLM骨干网络上验证了 3D-Mix 的通用性和有效性，提供了实用的实施指南。

Card 04 方法描述

方法描述

3D-Mix 模块基于语义条件自适应门控原理工作，动态融合来自MLLM的2D语义特征和来自 VGGT 的3D几何特征。
核心创新在于使用一个可学习的门控网络，该网络基于全局语义上下文和局部几何特征，为每个空间位置计算位置特定的融合权重。
该模块作为MLLM与动作专家之间的桥梁，无需修改现有模型内部组件即可集成到 GR00T-style 和 π-style 等不同VLA架构中。

Card 05 数据集与资源

数据集与资源

训练数据集：Open X-Embodiment 数据集中的 BridgeV2 子集。
评估基准：SIMPLER（域外、real-to-sim基准）和 LIBERO（域内多任务基准）。
模型规模：评估了六种MLLM系列的九个模型变体，参数量在 2B–8B 之间。
训练资源：使用 8× NVIDIA H100 GPU 进行训练，采用 DeepSpeed ZeRO-2 优化。

Card 06 评估与结果

评估与结果

评估环境：在 GR00T-style 和 π-style 两种VLA架构上进行评估。
主要指标：任务平均成功率。
关键结果：3D-Mix 在所有评估的MLLM骨干网络上均带来一致的性能提升。在 GR00T-style 架构上，于域外 SIMPLER 基准上九个变体平均提升 +7.0%，其中 RynnBrain-8B 提升高达 +12.51%。在 π-style 架构上也取得了显著的性能提升。