一眼看懂
封面预览
提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据
- 提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据
- 使用收集的数据对开源LLM Llama-3.1-8B 进行微调,提出 Reason3DVG-8B 模型
- 解决了现有方法依赖大规模人工标注数据的问题,且仅使用 3D-GRAND 1.6% 的训练数据量即可获得更优性能
Card 01
研究单位
研究单位
- University of Washington(华盛顿大学)
- 作者:Hsiang-Wei Huang, Kuang-Ming Chen, Wenhao Chai, Cheng-Yen Yang, Jen-Hao Cheng, Jenq-Neng Hwang
Card 02
论文概述
论文概述
- 提出一种全自动的3D视觉定位数据生成管道,无需人工标注即可生成带有推理过程的3D视觉定位训练数据
- 使用收集的数据对开源LLM Llama-3.1-8B 进行微调,提出 Reason3DVG-8B 模型
- 解决了现有方法依赖大规模人工标注数据的问题,且仅使用 3D-GRAND 1.6% 的训练数据量即可获得更优性能
Card 03
核心贡献
核心贡献
- 全自动数据管道:无需任何人工注释,通过程序化方式生成3D场景和对应的视觉定位查询及推理响应
- 四阶段推理框架:提出 Related Object Selection(相关对象选择)、Situation Estimation(情况估计)、Reasoning(推理)、Conclusion(结论)四个结构化推理阶段
- Reason3DVG-8B模型:基于Llama-3.1-8B微调,在ScanRefer和NR3D基准上超越现有LLM方法
- 数据效率证明:使用3.2K样本(3D-GRAND使用200K样本)即可超越3D-GRAND性能,展示推理监督的重要性
Card 04
方法描述
方法描述
- 3D场景生成:使用基于程序的管道生成遵循空间关系的3D场景布局,包含50+对象的场景
- 推理数据收集:利用 GPT-4o 生成符合四阶段推理格式的响应,通过字符串模式匹配和答案验证过滤约10%低质量样本
- LLM微调:采用标准交叉熵损失和Next-Token-Prediction目标进行监督微调
- 推理流程:测试时使用 Mask3D 生成对象提议,将其转换为文本格式后输入LLM进行推理预测
Card 05
数据集与资源
数据集与资源
- 训练数据:3.2K 3D场景样本(每个场景包含查询、对象提议、推理响应)
- 基础模型:Llama-3.1-8B(80亿参数)
- 评估基准:ScanRefer验证集(9,508查询)、NR3D(41.5K自然语言描述)
- 3D场景来源:ScanNet
- 对象检测器:Mask3D
Card 06
评估与结果
评估与结果
- ScanRefer基准:
- Acc@0.25: 38.7%(超越3D-GRAND的38.0%)
- Acc@0.5: 34.4%(超越3D-GRAND的27.4%)
- NR3D基准:
- Easy: 50.4%,Hard: 31.0%,Overall: 40.4%
- 使用oracle类别标签:Overall达49.3%
- 消融实验:
- 微调提升16%准确率
- 推理监督相比直接预测提升15.8%
- 域外泛化能力:In-Domain +15.1%,Out-of-Domain +17.0%