Reasoning Matters for 3D Visual Grounding - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出一种全自动的3D视觉定位数据生成管道，无需人工标注即可生成带有推理过程的3D视觉定位训练数据

Card 01 研究单位

研究单位

University of Washington（华盛顿大学）
作者：Hsiang-Wei Huang, Kuang-Ming Chen, Wenhao Chai, Cheng-Yen Yang, Jen-Hao Cheng, Jenq-Neng Hwang

Card 02 论文概述

Card 03 核心贡献

全自动数据管道：无需任何人工注释，通过程序化方式生成3D场景和对应的视觉定位查询及推理响应
四阶段推理框架：提出 Related Object Selection（相关对象选择）、Situation Estimation（情况估计）、Reasoning（推理）、Conclusion（结论）四个结构化推理阶段
Reason3DVG-8B模型：基于Llama-3.1-8B微调，在ScanRefer和NR3D基准上超越现有LLM方法
数据效率证明：使用3.2K样本（3D-GRAND使用200K样本）即可超越3D-GRAND性能，展示推理监督的重要性

Card 04 方法描述

Card 05 数据集与资源

Card 06 评估与结果

- Acc@0.25: 38.7%（超越3D-GRAND的38.0%）

- Acc@0.5: 34.4%（超越3D-GRAND的27.4%）

- Easy: 50.4%，Hard: 31.0%，Overall: 40.4%

- 使用oracle类别标签：Overall达49.3%

- 微调提升16%准确率

- 推理监督相比直接预测提升15.8%

- 域外泛化能力：In-Domain +15.1%，Out-of-Domain +17.0%