返回列表 VLA / Vision-Language-Action 每日论文卡

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

论文详情

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

2025-06-29 · 原文 · 翻译 · 2506.23329

论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。 该基准基于“分析-综合”范式,将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务,要求模型通过主动创建来证明其理解能力。 研究旨在解决现有基准多关注被动识别任务(如描述、VQA),而无法真正衡量模型是否具备深度场景理解能力的问题。

5 分钟读完 6 张阅读卡 CUHK (The Chinese University of Hong Kong)
一眼看懂 封面预览

论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。

  • 论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
  • 该基准基于“分析-综合”范式,将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务,要求模型通过主动…
  • 研究旨在解决现有基准多关注被动识别任务(如描述、VQA),而无法真正衡量模型是否具备深度场景理解能力的问题。
Card 01 研究单位

研究单位

  • CUHK (The Chinese University of Hong Kong)
  • TJU (Tianjin University)
  • EPFL (École Polytechnique Fédérale de Lausanne)
  • HKUST (The Hong Kong University of Science and Technology)
  • XMU (Xiamen University)
  • MIT (Massachusetts Institute of Technology)
Card 02 论文概述

论文概述

  • 论文提出了 IR3D-Bench,一个用于评估视觉语言模型 (VLMs) 场景理解能力的基准测试。
  • 该基准基于“分析-综合”范式,将场景理解定义为 Agentic Inverse Rendering (智能体逆向渲染) 任务,要求模型通过主动创建来证明其理解能力。
  • 研究旨在解决现有基准多关注被动识别任务(如描述、VQA),而无法真正衡量模型是否具备深度场景理解能力的问题。
Card 03 核心贡献

核心贡献

  • 提出了 IR3D-Bench 基准,创新性地要求 Vision-Language Agents (VLAs) 利用编程和渲染工具(如 Blender)从单张图像重建 3D 场景。
  • 设计了一套全面的评估体系,包含 Localization (定位)Visual Appearance (视觉外观)Language-Aligned Semantics (语言对齐语义) 三大类指标。
  • 开发了完整的评估流水线,利用 CLIPSAM 等模型实现预测对象与真实标签的自动匹配与细粒度评估。
  • 实验揭示了当前先进 VLAs 的主要瓶颈在于视觉感知精度不足而非单纯的工具使用错误。
Card 04 方法描述

方法描述

  • 采用 CLEVR 数据集作为受控测试环境,包含明确的几何和语义标注。
  • Agent 被提示输出结构化的场景表示(JSON 格式),包含 3D 坐标、形状、颜色、材质和尺寸等属性。
  • 使用 Blender 渲染预测的场景,并通过匈牙利算法基于 CLIP 语义相似度匹配预测对象与真实对象。
  • 利用 SAM (Segment Anything Model) 根据投影的 3D 中心点生成实例掩码,以量化几何和外观的重建质量。
Card 05 数据集与资源

数据集与资源

  • CLEVR 数据集验证集(15,000 张合成图像,分辨率 480x320)。
  • 评估对象包括 Gemini-2.5-proGrok-3Qwen2.5-VL-72B 等主流大模型。
  • 辅助模型与工具:Blender (渲染)、SAM (分割)、CLIP (语义编码)、GPT-4o (语义评分)。
Card 06 评估与结果

评估与结果

  • 评估指标包括像素距离、计数准确率、边界框边缘得分、空间关系一致性、掩码 IoU 以及颜色/材质/形状准确率。
  • 实验结果显示,Gemini-2.5-pro 在物体空间布局理解上表现最佳,Grok-3 在颜色和材质细节建模上表现出色。
  • Qwen2.5-VL-72B 在复杂场景中表现较差。
  • 关键发现:当前模型的主要失败原因并非无法使用工具(语法错误),而是缺乏精确的视觉感知能力,导致在迭代优化中迅速遇到瓶颈。