论文提出了 Cross-View Relations (XVR) 数据集，旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题，特别是理解不同…

论文详情

Learning Multi-View Spatial Reasoning from Cross-View Relations

2026-03-30 · 原文 · 翻译 · 2603.27967

论文提出了 Cross-View Relations (XVR) 数据集，旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题，特别是理解不同视角间的几何关系。该数据集包含约 100K 个视觉问答样本，源自通用 3D 场景和机器人操作轨迹，涵盖对应、验证和定位三大核心任务。论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能，并能有效迁移至 Vision-Language-Action (VLA) 模…

6 分钟读完 6 张阅读卡 KAIST

一眼看懂封面预览

论文提出了 Cross-View Relations (XVR) 数据集，旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题，特别是理解不同…

论文提出了 Cross-View Relations (XVR) 数据集，旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题，特别是理解不同…
该数据集包含约 100K 个视觉问答样本，源自通用 3D 场景和机器人操作轨迹，涵盖对应、验证和定位三大核心任务。
论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能，并能有效迁移至 Vision-Language-Action (VLA) 模型…

Card 01 研究单位

研究单位

KAIST
Config
Hanyang University
Yonsei University
Seoul National University

Card 02 论文概述

论文概述

论文提出了 Cross-View Relations (XVR) 数据集，旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题，特别是理解不同视角间的几何关系。
该数据集包含约 100K 个视觉问答样本，源自通用 3D 场景和机器人操作轨迹，涵盖对应、验证和定位三大核心任务。
论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能，并能有效迁移至 Vision-Language-Action (VLA) 模型，提高机器人操作成功率。

Card 03 核心贡献

核心贡献

提出了 XVR 数据集，首次为视觉语言模型提供了显式的跨视角几何关系监督，而非仅关注单视角物体识别。
设计了三类空间推理任务（Correspondence, Verification, Localization）并细化为八项具体任务，涵盖从特征匹配到相对视角推理的完整流程。
构建了 XVR-Eval 评估基准，证明微调后的 Qwen3-VL-2B 模型在多视角推理任务上超越了 GPT-5 等闭源大模型。
验证了 XVR 训练得到的表征可迁移至下游具身智能任务，将 RoboCasa 仿真环境中的机器人操作成功率平均提升了 13%。

Card 04 方法描述

方法描述

受 Structure-from-Motion (SfM) 启发，设计了模拟人类几何认知的数据生成管线，通过几何投影和时空元数据提取构建 QA 对。
利用 WildRGB-D 数据集的校准相机参数生成通用域任务，利用 OXE 和 AgiBot-World 的机器人轨迹生成机器人域任务。
采用 SSIM 过滤和动作启发式方法对数据进行质量控制，确保生成的时空验证任务具有视觉区分度。
基于 Qwen3-VL-2B-Instruct 进行微调，并参考 GR00T-N1.5 架构添加扩散动作头以构建 VLA 模型。

Card 05 数据集与资源

数据集与资源

训练数据集：XVR，包含 103K QA 样本和 447K 图像，平均每样本含 4.32 张多视角图像。
数据来源：WildRGB-D (通用域), OXE (包含 DROID, MobileAloha 等), AgiBot-World (机器人域)。
评估数据集：自建 XVR-Eval (1866 样本), 外部基准 MindCube-Tiny, RoboSpatial-Home, RoboCasa。
模型规模：主要实验模型为 Qwen3-VL-2B 和 Qwen3-VL-4B，对比模型包括 Claude-4.5, GPT-5, Gemini-2.5 等。

Card 06 评估与结果

评估与结果

在 XVR-Eval 基准上，Qwen3-VL-2B-XVR 总体准确率达到 68.06%，超越 GPT-5 (61.74%) 及所有其他闭源模型，相比基线相对提升 1.8倍。
在 MindCube-Tiny 和 RoboSpatial-Home 外部基准上，模型在多项子任务中取得显著进步，例如 Compatibility 任务提升 7.6%。
在 RoboCasa 的三项机器人操作任务中，使用 XVR 训练骨干网络的 VLA 模型成功率全面超越基线，其中 TurnOffMicrowave 任务因需要跨视角空间消歧提升最为明显。
人类基准在 XVR-Eval 上的总体准确率为 83.85%，模型在部分几何计算任务（如点对应）上已超越人类，但在方向对应和时间验证上仍有差距。