GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

论文详情

GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

2025-06-01 · 原文 · 翻译 · 2506.01174

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。提出了 GraphPad，这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。该系统允许智能体识别知识盲区，并按需更新场景图、导航日志和临时记事本，从而解决任务与记忆不匹配的问题。

4 分钟读完 6 张阅读卡 University of Waterloo

一眼看懂封面预览

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
提出了 GraphPad，这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
该系统允许智能体识别知识盲区，并按需更新场景图、导航日志和临时记事本，从而解决任务与记忆不匹配的问题。

Card 01 研究单位

研究单位

University of Waterloo
University of California, Los Angeles

Card 02 论文概述

论文概述

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
提出了 GraphPad，这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
该系统允许智能体识别知识盲区，并按需更新场景图、导航日志和临时记事本，从而解决任务与记忆不匹配的问题。

Card 03 核心贡献

核心贡献

提出了“语言驱动的在线编辑”概念，解决了固定场景图中固有的任务与记忆不匹配问题。
设计了 GraphPad 系统，使单个视觉语言模型（VLM）能够在推理过程中识别知识缺口并通过 API 更新 3D 表示。
在 OpenEQA 基准测试中，将空间问答准确率从 52.3% 提升至 55.3%，同时将处理的帧数减少了五倍。

Card 04 方法描述

方法描述

构建了包含四个相互链接组件的 Structured Scene Memory (SSM)：场景图、图形记事本、帧内存和导航日志。
设计了三种可修改性 API 供 VLM 调用：find_objects（检测未见过实例）、analyze_objects（注释现有节点）和 analyze_frame（联合发现与注释）。
采用代理推理循环，VLM 根据查询分析当前记忆，识别缺失信息，调用 API 更新记忆，直到获得足够信息。
利用 SAM 进行掩码提取，使用 CLIP ViT-L/14 和 BGE 提取特征嵌入，通过投票方案进行轨迹关联。

Card 05 数据集与资源

数据集与资源

使用 OpenEQA 基准测试（包含 HM3D 和 ScanNet 场景）进行评估。
使用 Gemini 2.0 Flash 作为核心视觉语言模型（VLM），同时用于推理和检测。
使用 CLIP ViT-L/14 提取视觉嵌入，BGE 提取语言嵌入。

Card 06 评估与结果

评估与结果

在 OpenEQA 基准测试中，GraphPad 达到了 55.3% 的准确率，比仅使用图像的 Gemini 2.0 Flash 基线高 +3.0 pp。
系统仅需 5 个初始帧 即可达到上述性能，而基线模型通常处理 25 个帧，显示出极高的数据效率。
消融实验表明，导航日志带来了最大的单项提升（+9.6 pp），可修改性 API 在静态场景表示基础上进一步提升了 +3.6 pp。
95% 的问题通过 5 次或更少的 API 调用即可解决，平均每个问题仅需 1.9 次 API 调用。