返回列表 VLA / Vision-Language-Action 每日论文卡
Reasoning Matters for 3D Visual Grounding
提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据

论文详情

Reasoning Matters for 3D Visual Grounding

2026-01-13 · 原文 · 翻译 · 2601.08811

提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据 使用收集的数据对开源LLM Llama-3.1-8B 进行微调,提出 Reason3DVG-8B 模型 解决了现有方法依赖大规模人工标注数据的问题,且仅使用 3D-GRAND 1.6% 的训练数据量即可获得更优性能

5 分钟读完 6 张阅读卡 University of Washington(华盛顿大学)
一眼看懂 封面预览

提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据

  • 提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据
  • 使用收集的数据对开源LLM Llama-3.1-8B 进行微调,提出 Reason3DVG-8B 模型
  • 解决了现有方法依赖大规模人工标注数据的问题,且仅使用 3D-GRAND 1.6% 的训练数据量即可获得更优性能
Card 01 研究单位

研究单位

  • University of Washington(华盛顿大学)
  • 作者:Hsiang-Wei Huang, Kuang-Ming Chen, Wenhao Chai, Cheng-Yen Yang, Jen-Hao Cheng, Jenq-Neng Hwang
Card 02 论文概述

论文概述

  • 提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据
  • 使用收集的数据对开源LLM Llama-3.1-8B 进行微调,提出 Reason3DVG-8B 模型
  • 解决了现有方法依赖大规模人工标注数据的问题,且仅使用 3D-GRAND 1.6% 的训练数据量即可获得更优性能
Card 03 核心贡献

核心贡献

  • 全自动数据管道:无需任何人工注释,通过程序化方式生成3D场景和对应的视觉定位查询及推理响应
  • 四阶段推理框架:提出 Related Object Selection(相关对象选择)、Situation Estimation(情况估计)、Reasoning(推理)、Conclusion(结论)四个结构化推理阶段
  • Reason3DVG-8B模型:基于Llama-3.1-8B微调,在ScanRefer和NR3D基准上超越现有LLM方法
  • 数据效率证明:使用3.2K样本(3D-GRAND使用200K样本)即可超越3D-GRAND性能,展示推理监督的重要性
Card 04 方法描述

方法描述

  • 3D场景生成:使用基于程序的管道生成遵循空间关系的3D场景布局,包含50+对象的场景
  • 推理数据收集:利用 GPT-4o 生成符合四阶段推理格式的响应,通过字符串模式匹配和答案验证过滤约10%低质量样本
  • LLM微调:采用标准交叉熵损失和Next-Token-Prediction目标进行监督微调
  • 推理流程:测试时使用 Mask3D 生成对象提议,将其转换为文本格式后输入LLM进行推理预测
Card 05 数据集与资源

数据集与资源

  • 训练数据:3.2K 3D场景样本(每个场景包含查询、对象提议、推理响应)
  • 基础模型Llama-3.1-8B(80亿参数)
  • 评估基准:ScanRefer验证集(9,508查询)、NR3D(41.5K自然语言描述)
  • 3D场景来源:ScanNet
  • 对象检测器:Mask3D
Card 06 评估与结果

评估与结果

  • ScanRefer基准

- Acc@0.25: 38.7%(超越3D-GRAND的38.0%)

- Acc@0.5: 34.4%(超越3D-GRAND的27.4%)

  • NR3D基准

- Easy: 50.4%,Hard: 31.0%,Overall: 40.4%

- 使用oracle类别标签:Overall达49.3%

  • 消融实验

- 微调提升16%准确率

- 推理监督相比直接预测提升15.8%

- 域外泛化能力:In-Domain +15.1%,Out-of-Domain +17.0%