IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

论文详情

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

2025-06-29 · 原文 · 翻译 · 2506.23329

论文提出了 IR3D-Bench，一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。该基准基于“分析-综合”范式，将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务，要求模型通过主动创建来证明其理解能力。研究旨在解决现有基准多关注被动识别任务（如描述、VQA），而无法真正衡量模型是否具备深度场景理解能力的问题。

5 分钟读完 6 张阅读卡 CUHK (The Chinese University of Hong Kong)

一眼看懂封面预览

论文提出了 IR3D-Bench，一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。

论文提出了 IR3D-Bench，一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
该基准基于“分析-综合”范式，将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务，要求模型通过主动…
研究旨在解决现有基准多关注被动识别任务（如描述、VQA），而无法真正衡量模型是否具备深度场景理解能力的问题。

Card 01 研究单位

研究单位

CUHK (The Chinese University of Hong Kong)
TJU (Tianjin University)
EPFL (École Polytechnique Fédérale de Lausanne)
HKUST (The Hong Kong University of Science and Technology)
XMU (Xiamen University)
MIT (Massachusetts Institute of Technology)

Card 02 论文概述

论文概述

论文提出了 IR3D-Bench，一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
该基准基于“分析-综合”范式，将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务，要求模型通过主动创建来证明其理解能力。
研究旨在解决现有基准多关注被动识别任务（如描述、VQA），而无法真正衡量模型是否具备深度场景理解能力的问题。

Card 03 核心贡献

核心贡献

提出了 IR3D-Bench 基准，创新性地要求 Vision-Language Agents (VLAs) 利用编程和渲染工具（如 Blender）从单张图像重建 3D 场景。
设计了一套全面的评估体系，包含 Localization (定位)、Visual Appearance (视觉外观) 和 Language-Aligned Semantics (语言对齐语义) 三大类指标。
开发了完整的评估流水线，利用 CLIP 和 SAM 等模型实现预测对象与真实标签的自动匹配与细粒度评估。
实验揭示了当前先进 VLAs 的主要瓶颈在于视觉感知精度不足而非单纯的工具使用错误。

Card 04 方法描述

方法描述

采用 CLEVR 数据集作为受控测试环境，包含明确的几何和语义标注。
Agent 被提示输出结构化的场景表示（JSON 格式），包含 3D 坐标、形状、颜色、材质和尺寸等属性。
使用 Blender 渲染预测的场景，并通过匈牙利算法基于 CLIP 语义相似度匹配预测对象与真实对象。
利用 SAM (Segment Anything Model) 根据投影的 3D 中心点生成实例掩码，以量化几何和外观的重建质量。

Card 05 数据集与资源

数据集与资源

CLEVR 数据集验证集（15,000 张合成图像，分辨率 480x320）。
评估对象包括 Gemini-2.5-pro、Grok-3、Qwen2.5-VL-72B 等主流大模型。
辅助模型与工具：Blender (渲染)、SAM (分割)、CLIP (语义编码)、GPT-4o (语义评分)。

Card 06 评估与结果

评估与结果

评估指标包括像素距离、计数准确率、边界框边缘得分、空间关系一致性、掩码 IoU 以及颜色/材质/形状准确率。
实验结果显示，Gemini-2.5-pro 在物体空间布局理解上表现最佳，Grok-3 在颜色和材质细节建模上表现出色。
Qwen2.5-VL-72B 在复杂场景中表现较差。
关键发现：当前模型的主要失败原因并非无法使用工具（语法错误），而是缺乏精确的视觉感知能力，导致在迭代优化中迅速遇到瓶颈。