论文提出 XEmbodied，一个面向大规模具身环境（如自动驾驶与机器人）的云端基础模型。

论文详情

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

2026-04-20 · 原文 · 翻译 · 2604.18484

论文提出 XEmbodied，一个面向大规模具身环境（如自动驾驶与机器人）的云端基础模型。该模型旨在解决现有通用视觉语言模型（VLM）因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。核心目标是通过增强内在的3D几何感知与物理线索交互能力，实现稳健的大规模场景挖掘与具身VQA任务。

4 分钟读完 6 张阅读卡清华大学

一眼看懂封面预览

论文提出 XEmbodied，一个面向大规模具身环境（如自动驾驶与机器人）的云端基础模型。

论文提出 XEmbodied，一个面向大规模具身环境（如自动驾驶与机器人）的云端基础模型。
该模型旨在解决现有通用视觉语言模型（VLM）因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。
核心目标是通过增强内在的3D几何感知与物理线索交互能力，实现稳健的大规模场景挖掘与具身VQA任务。

Card 01 研究单位

研究单位

清华大学
小米公司 汽车与机器人部门
新加坡国立大学
麦吉尔大学
威斯康星大学麦迪逊分校

Card 02 论文概述

论文概述

论文提出 XEmbodied，一个面向大规模具身环境（如自动驾驶与机器人）的云端基础模型。
该模型旨在解决现有通用视觉语言模型（VLM）因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。
核心目标是通过增强内在的3D几何感知与物理线索交互能力，实现稳健的大规模场景挖掘与具身VQA任务。

Card 03 核心贡献

核心贡献

提出 XEmbodied，一个融合内在几何表征与物理线索交互的云端具身闭环VQA通用模型。
设计 3D Adapter (3DA) 与 Efficient Image-Embodied Adapter (EIEA)，实现几何先验的注入与物理线索的高效整合。
开发一套基于空间熵评分与四级数据分类体系的 渐进式领域课程 与自动化数据治理管线，以缓解灾难性遗忘并提升分布外泛化能力。

Card 04 方法描述

方法描述

3D Adapter (3DA)：通过一个语义流（基于Qwen3-VL）和一个几何流（基于VGGT）双流架构，利用交叉注意力机制将3D几何特征注入2D语义Token中，赋予模型内生3D能力。
Efficient Image-Embodied Adapter (EIEA)：通过模态专用特征提取、基于Mamba的多模态解释器与蒸馏压缩模块，将异构物理模态（如BEV占用、3D检测、地图分割）蒸馏为紧凑的物理线索Token，无缝注入MLLM上下文。
设计四阶段训练管线：依次完成领域语义对齐、3D几何对齐、端到端几何认知与EIEA训练，并结合GRPO强化学习进行后训练优化。

Card 05 数据集与资源

数据集与资源

训练数据涵盖自动驾驶数据集（如LingoQA、BDD100k、DriveBench）、机器人数据集（如RoboVQA、Ego3D-Bench）及通用数据集（如RefCOCO、VQAv2）。
模型基于 Qwen3-VL-30B-A3B-Instruct 进行微调。
实验在 128个 NVIDIA H20 GPU 上使用 ms-swift 框架完成。

Card 06 评估与结果

评估与结果

在 18个 公开基准上进行评估，涵盖空间与3D理解（如Ego3DBench、SURDS）以及语义与推理（如DriveBench、LingoQA）。
主要指标包括准确率（ACC）与均方根误差（RMSE）。
实验结果表明，XEmbodied 在多个基准上取得最佳或次佳成绩，尤其在SURDS（83.83%）、VLADBench（68.61%）和DriveLMM-o1（77.01%）等任务上显著优于现有开源模型及部分闭源模型，证明了其在空间推理、交通语义与具身能力方面的优势。