一眼看懂
封面预览
论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同…
- 论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同…
- 该数据集包含约 100K 个视觉问答样本,源自通用 3D 场景和机器人操作轨迹,涵盖对应、验证和定位三大核心任务。
- 论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能,并能有效迁移至 Vision-Language-Action (VLA) 模型…
Card 01
研究单位
研究单位
- KAIST
- Config
- Hanyang University
- Yonsei University
- Seoul National University
Card 02
论文概述
论文概述
- 论文提出了 Cross-View Relations (XVR) 数据集,旨在解决现有视觉语言模型缺乏多视角空间推理能力的问题,特别是理解不同视角间的几何关系。
- 该数据集包含约 100K 个视觉问答样本,源自通用 3D 场景和机器人操作轨迹,涵盖对应、验证和定位三大核心任务。
- 论文展示了在 XVR 上微调的模型能显著提升多视角基准测试性能,并能有效迁移至 Vision-Language-Action (VLA) 模型,提高机器人操作成功率。
Card 03
核心贡献
核心贡献
- 提出了 XVR 数据集,首次为视觉语言模型提供了显式的跨视角几何关系监督,而非仅关注单视角物体识别。
- 设计了三类空间推理任务(Correspondence, Verification, Localization)并细化为八项具体任务,涵盖从特征匹配到相对视角推理的完整流程。
- 构建了 XVR-Eval 评估基准,证明微调后的 Qwen3-VL-2B 模型在多视角推理任务上超越了 GPT-5 等闭源大模型。
- 验证了 XVR 训练得到的表征可迁移至下游具身智能任务,将 RoboCasa 仿真环境中的机器人操作成功率平均提升了 13%。
Card 04
方法描述
方法描述
- 受 Structure-from-Motion (SfM) 启发,设计了模拟人类几何认知的数据生成管线,通过几何投影和时空元数据提取构建 QA 对。
- 利用 WildRGB-D 数据集的校准相机参数生成通用域任务,利用 OXE 和 AgiBot-World 的机器人轨迹生成机器人域任务。
- 采用 SSIM 过滤和动作启发式方法对数据进行质量控制,确保生成的时空验证任务具有视觉区分度。
- 基于 Qwen3-VL-2B-Instruct 进行微调,并参考 GR00T-N1.5 架构添加扩散动作头以构建 VLA 模型。
Card 05
数据集与资源
数据集与资源
- 训练数据集:XVR,包含 103K QA 样本和 447K 图像,平均每样本含 4.32 张多视角图像。
- 数据来源:WildRGB-D (通用域), OXE (包含 DROID, MobileAloha 等), AgiBot-World (机器人域)。
- 评估数据集:自建 XVR-Eval (1866 样本), 外部基准 MindCube-Tiny, RoboSpatial-Home, RoboCasa。
- 模型规模:主要实验模型为 Qwen3-VL-2B 和 Qwen3-VL-4B,对比模型包括 Claude-4.5, GPT-5, Gemini-2.5 等。
Card 06
评估与结果
评估与结果
- 在 XVR-Eval 基准上,Qwen3-VL-2B-XVR 总体准确率达到 68.06%,超越 GPT-5 (61.74%) 及所有其他闭源模型,相比基线相对提升 1.8倍。
- 在 MindCube-Tiny 和 RoboSpatial-Home 外部基准上,模型在多项子任务中取得显著进步,例如 Compatibility 任务提升 7.6%。
- 在 RoboCasa 的三项机器人操作任务中,使用 XVR 训练骨干网络的 VLA 模型成功率全面超越基线,其中 TurnOffMicrowave 任务因需要跨视角空间消歧提升最为明显。
- 人类基准在 XVR-Eval 上的总体准确率为 83.85%,模型在部分几何计算任务(如点对应)上已超越人类,但在方向对应和时间验证上仍有差距。