返回列表 VLA / Vision-Language-Action 每日论文卡
Learning Multi-View Spatial Reasoning from Cross-View Relations
论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同…

论文详情

Learning Multi-View Spatial Reasoning from Cross-View Relations

2026-03-30 · 原文 · 翻译 · 2603.27967

论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同视角间的几何关系。 该数据集包含约 100K 个视觉问答样本,源自通用 3D 场景和机器人操作轨迹,涵盖对应、验证和定位三大核心任务。 论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能,并能有效迁移至 Vision-Language-Action (VLA) 模…

6 分钟读完 6 张阅读卡 KAIST
一眼看懂 封面预览

论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同…

  • 论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同…
  • 该数据集包含约 100K 个视觉问答样本,源自通用 3D 场景和机器人操作轨迹,涵盖对应、验证和定位三大核心任务。
  • 论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能,并能有效迁移至 Vision-Language-Action (VLA) 模型…
Card 01 研究单位

研究单位

  • KAIST
  • Config
  • Hanyang University
  • Yonsei University
  • Seoul National University
Card 02 论文概述

论文概述

  • 论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同视角间的几何关系。
  • 该数据集包含约 100K 个视觉问答样本,源自通用 3D 场景和机器人操作轨迹,涵盖对应、验证和定位三大核心任务。
  • 论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能,并能有效迁移至 Vision-Language-Action (VLA) 模型,提高机器人操作成功率。
Card 03 核心贡献

核心贡献

  • 提出了 XVR 数据集,首次为视觉语言模型提供了显式的跨视角几何关系监督,而非仅关注单视角物体识别。
  • 设计了三类空间推理任务(Correspondence, Verification, Localization)并细化为八项具体任务,涵盖从特征匹配到相对视角推理的完整流程。
  • 构建了 XVR-Eval 评估基准,证明微调后的 Qwen3-VL-2B 模型在多视角推理任务上超越了 GPT-5 等闭源大模型。
  • 验证了 XVR 训练得到的表征可迁移至下游具身智能任务,将 RoboCasa 仿真环境中的机器人操作成功率平均提升了 13%
Card 04 方法描述

方法描述

  • Structure-from-Motion (SfM) 启发,设计了模拟人类几何认知的数据生成管线,通过几何投影和时空元数据提取构建 QA 对。
  • 利用 WildRGB-D 数据集的校准相机参数生成通用域任务,利用 OXEAgiBot-World 的机器人轨迹生成机器人域任务。
  • 采用 SSIM 过滤和动作启发式方法对数据进行质量控制,确保生成的时空验证任务具有视觉区分度。
  • 基于 Qwen3-VL-2B-Instruct 进行微调,并参考 GR00T-N1.5 架构添加扩散动作头以构建 VLA 模型。
Card 05 数据集与资源

数据集与资源

  • 训练数据集:XVR,包含 103K QA 样本和 447K 图像,平均每样本含 4.32 张多视角图像。
  • 数据来源:WildRGB-D (通用域), OXE (包含 DROID, MobileAloha 等), AgiBot-World (机器人域)。
  • 评估数据集:自建 XVR-Eval (1866 样本), 外部基准 MindCube-Tiny, RoboSpatial-Home, RoboCasa
  • 模型规模:主要实验模型为 Qwen3-VL-2BQwen3-VL-4B,对比模型包括 Claude-4.5, GPT-5, Gemini-2.5 等。
Card 06 评估与结果

评估与结果

  • XVR-Eval 基准上,Qwen3-VL-2B-XVR 总体准确率达到 68.06%,超越 GPT-5 (61.74%) 及所有其他闭源模型,相比基线相对提升 1.8倍
  • MindCube-TinyRoboSpatial-Home 外部基准上,模型在多项子任务中取得显著进步,例如 Compatibility 任务提升 7.6%
  • RoboCasa 的三项机器人操作任务中,使用 XVR 训练骨干网络的 VLA 模型成功率全面超越基线,其中 TurnOffMicrowave 任务因需要跨视角空间消歧提升最为明显。
  • 人类基准在 XVR-Eval 上的总体准确率为 83.85%,模型在部分几何计算任务(如点对应)上已超越人类,但在方向对应和时间验证上仍有差距。