Visual Spatial Tuning - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出了一个名为 Visual Spatial Tuning (VST) 的综合框架，旨在增强视觉语言模型（VLMs）的类人视觉空间能力，涵…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了一个名为 Visual Spatial Tuning (VST) 的综合框架，旨在增强视觉语言模型（VLMs）的类人视觉空间能力，涵盖从空间感知到推理的全过程。
研究旨在解决当前 VLMs 在从视觉输入中捕捉空间关系方面存在的局限性，这种局限限制了其在机器人、自动驾驶和AR/VR等领域的应用。
核心方法是通过构建大规模、精心策划的数据集，采用渐进式训练流水线，在不引入额外专家编码器、不损害模型通用能力的前提下，显著提升 VLMs 的空间感知与推理能力。

Card 03 核心贡献

提出了 Visual Spatial Tuning (VST) 框架，这是一个用于培养 VLMs 空间能力的全面解决方案。
构建了大规模数据集 VST-Perception (VST-P)（410万样本，涵盖19项技能）和 VST-Reasoning (VST-R)（13.5万样本），分别用于建立空间感知基础和提升空间推理能力。
设计了渐进式训练策略：首先通过监督微调注入空间知识，再利用强化学习进一步增强空间推理能力，该策略模拟了人类空间智能的发展过程。
实验结果表明，VST 在多个空间基准上取得了最先进的性能，同时保持了模型的通用多模态能力，并能有效提升下游 Vision-Language-Action (VLA) 模型的性能。

Card 04 方法描述

使用 Qwen2.5-VL 作为基础模型，遵循“ViT-MLP-LLM”架构。
提出三阶段训练策略：1) 在 VST-P 数据集上进行监督微调，建立空间感知基础；2) 使用思维链数据进行冷启动训练，赋予模型基本推理模式；3) 使用 Group Relative Policy Optimization (GRPO) 算法进行强化学习，进一步提升推理能力。
关键技术创新包括：FoV统一策略以消除不同数据源相机内参的差异性；基于BEV标注的提示方法，利用俯视图辅助生成更准确、连贯的空间推理链。
该方法证明了无需在 VLM 中引入具有3D归纳偏置的特殊编码器，仅通过数据和训练策略即可实现强大的空间能力。

Card 05 数据集与资源

Card 06 评估与结果

评估基准：空间能力评估涵盖单图像、多图像和视频能力，包括 CVBench, 3DSRBench, MMSI-Bench, BLINK, VSIBench；通用能力评估包括 MMStar, MMBench, RealworldQA, MMMU, OCRBench, AI2D；3D目标检测在 SUN RGB-D 和 ARKitScenes 数据集上评估。
关键结果：

- VST-7B-RL 在 MMSI-Bench 上达到 34.8%，在 VSIBench 上达到 61.2%，均取得领先水平。

- 在 CVBench 上，VST-7B-SFT 达到 87.8%，超越了私有模型 Seed1.5-VL。

- 在 SUN RGB-D 3D目标检测任务中，VST-7B-RL 取得了 44.2% AP@15，在通用VLM和专用方法中均排名第一。

- VST框架能有效提升VLA模型性能，在 LIBERO 基准上使 Qwen2.5VL-3B 的性能提升了 8.6%。

- 所有模型在保持空间能力显著提升的同时，通用多模态能力（MM-AVG）并未受损。