返回列表 VLA / Vision-Language-Action 每日论文卡
XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
论文提出 XEmbodied,一个面向大规模具身环境(如自动驾驶与机器人)的云端基础模型。

论文详情

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

2026-04-20 · 原文 · 翻译 · 2604.18484

论文提出 XEmbodied,一个面向大规模具身环境(如自动驾驶与机器人)的云端基础模型。 该模型旨在解决现有通用视觉语言模型(VLM)因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。 核心目标是通过增强内在的3D几何感知与物理线索交互能力,实现稳健的大规模场景挖掘与具身VQA任务。

4 分钟读完 6 张阅读卡 清华大学
一眼看懂 封面预览

论文提出 XEmbodied,一个面向大规模具身环境(如自动驾驶与机器人)的云端基础模型。

  • 论文提出 XEmbodied,一个面向大规模具身环境(如自动驾驶与机器人)的云端基础模型。
  • 该模型旨在解决现有通用视觉语言模型(VLM)因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。
  • 核心目标是通过增强内在的3D几何感知与物理线索交互能力,实现稳健的大规模场景挖掘与具身VQA任务。
Card 01 研究单位

研究单位

  • 清华大学
  • 小米公司 汽车与机器人部门
  • 新加坡国立大学
  • 麦吉尔大学
  • 威斯康星大学麦迪逊分校
Card 02 论文概述

论文概述

  • 论文提出 XEmbodied,一个面向大规模具身环境(如自动驾驶与机器人)的云端基础模型。
  • 该模型旨在解决现有通用视觉语言模型(VLM)因2D图像-文本预训练而缺乏3D几何推理与领域语义的问题。
  • 核心目标是通过增强内在的3D几何感知与物理线索交互能力,实现稳健的大规模场景挖掘与具身VQA任务。
Card 03 核心贡献

核心贡献

  • 提出 XEmbodied,一个融合内在几何表征与物理线索交互的云端具身闭环VQA通用模型。
  • 设计 3D Adapter (3DA)Efficient Image-Embodied Adapter (EIEA),实现几何先验的注入与物理线索的高效整合。
  • 开发一套基于空间熵评分与四级数据分类体系的 渐进式领域课程 与自动化数据治理管线,以缓解灾难性遗忘并提升分布外泛化能力。
Card 04 方法描述

方法描述

  • 3D Adapter (3DA):通过一个语义流(基于Qwen3-VL)和一个几何流(基于VGGT)双流架构,利用交叉注意力机制将3D几何特征注入2D语义Token中,赋予模型内生3D能力。
  • Efficient Image-Embodied Adapter (EIEA):通过模态专用特征提取、基于Mamba的多模态解释器与蒸馏压缩模块,将异构物理模态(如BEV占用、3D检测、地图分割)蒸馏为紧凑的物理线索Token,无缝注入MLLM上下文。
  • 设计四阶段训练管线:依次完成领域语义对齐、3D几何对齐、端到端几何认知与EIEA训练,并结合GRPO强化学习进行后训练优化。
Card 05 数据集与资源

数据集与资源

  • 训练数据涵盖自动驾驶数据集(如LingoQABDD100kDriveBench)、机器人数据集(如RoboVQAEgo3D-Bench)及通用数据集(如RefCOCOVQAv2)。
  • 模型基于 Qwen3-VL-30B-A3B-Instruct 进行微调。
  • 实验在 128个 NVIDIA H20 GPU 上使用 ms-swift 框架完成。
Card 06 评估与结果

评估与结果

  • 18个 公开基准上进行评估,涵盖空间与3D理解(如Ego3DBenchSURDS)以及语义与推理(如DriveBenchLingoQA)。
  • 主要指标包括准确率(ACC)与均方根误差(RMSE)。
  • 实验结果表明,XEmbodied 在多个基准上取得最佳或次佳成绩,尤其在SURDS(83.83%)、VLADBench(68.61%)和DriveLMM-o1(77.01%)等任务上显著优于现有开源模型及部分闭源模型,证明了其在空间推理、交通语义与具身能力方面的优势。