一眼看懂
封面预览
论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
- 论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
- 该基准基于“分析-综合”范式,将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务,要求模型通过主动…
- 研究旨在解决现有基准多关注被动识别任务(如描述、VQA),而无法真正衡量模型是否具备深度场景理解能力的问题。
Card 01
研究单位
研究单位
- CUHK (The Chinese University of Hong Kong)
- TJU (Tianjin University)
- EPFL (École Polytechnique Fédérale de Lausanne)
- HKUST (The Hong Kong University of Science and Technology)
- XMU (Xiamen University)
- MIT (Massachusetts Institute of Technology)
Card 02
论文概述
论文概述
- 论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
- 该基准基于“分析-综合”范式,将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务,要求模型通过主动创建来证明其理解能力。
- 研究旨在解决现有基准多关注被动识别任务(如描述、VQA),而无法真正衡量模型是否具备深度场景理解能力的问题。
Card 03
核心贡献
核心贡献
- 提出了 IR3D-Bench 基准,创新性地要求 Vision-Language Agents (VLAs) 利用编程和渲染工具(如 Blender)从单张图像重建 3D 场景。
- 设计了一套全面的评估体系,包含 Localization (定位)、Visual Appearance (视觉外观) 和 Language-Aligned Semantics (语言对齐语义) 三大类指标。
- 开发了完整的评估流水线,利用 CLIP 和 SAM 等模型实现预测对象与真实标签的自动匹配与细粒度评估。
- 实验揭示了当前先进 VLAs 的主要瓶颈在于视觉感知精度不足而非单纯的工具使用错误。
Card 04
方法描述
方法描述
- 采用 CLEVR 数据集作为受控测试环境,包含明确的几何和语义标注。
- Agent 被提示输出结构化的场景表示(JSON 格式),包含 3D 坐标、形状、颜色、材质和尺寸等属性。
- 使用 Blender 渲染预测的场景,并通过匈牙利算法基于 CLIP 语义相似度匹配预测对象与真实对象。
- 利用 SAM (Segment Anything Model) 根据投影的 3D 中心点生成实例掩码,以量化几何和外观的重建质量。
Card 05
数据集与资源
数据集与资源
- CLEVR 数据集验证集(15,000 张合成图像,分辨率 480x320)。
- 评估对象包括 Gemini-2.5-pro、Grok-3、Qwen2.5-VL-72B 等主流大模型。
- 辅助模型与工具:Blender (渲染)、SAM (分割)、CLIP (语义编码)、GPT-4o (语义评分)。
Card 06
评估与结果
评估与结果
- 评估指标包括像素距离、计数准确率、边界框边缘得分、空间关系一致性、掩码 IoU 以及颜色/材质/形状准确率。
- 实验结果显示,Gemini-2.5-pro 在物体空间布局理解上表现最佳,Grok-3 在颜色和材质细节建模上表现出色。
- Qwen2.5-VL-72B 在复杂场景中表现较差。
- 关键发现:当前模型的主要失败原因并非无法使用工具(语法错误),而是缺乏精确的视觉感知能力,导致在迭代优化中迅速遇到瓶颈。