返回列表 VLA / Vision-Language-Action 每日论文卡

GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

论文详情

GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

2025-06-01 · 原文 · 翻译 · 2506.01174

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。 提出了 GraphPad,这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。 该系统允许智能体识别知识盲区,并按需更新场景图、导航日志和临时记事本,从而解决任务与记忆不匹配的问题。

4 分钟读完 6 张阅读卡 University of Waterloo
一眼看懂 封面预览

论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。

  • 论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
  • 提出了 GraphPad,这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
  • 该系统允许智能体识别知识盲区,并按需更新场景图、导航日志和临时记事本,从而解决任务与记忆不匹配的问题。
Card 01 研究单位

研究单位

  • University of Waterloo
  • University of California, Los Angeles
Card 02 论文概述

论文概述

  • 论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
  • 提出了 GraphPad,这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
  • 该系统允许智能体识别知识盲区,并按需更新场景图、导航日志和临时记事本,从而解决任务与记忆不匹配的问题。
Card 03 核心贡献

核心贡献

  • 提出了“语言驱动的在线编辑”概念,解决了固定场景图中固有的任务与记忆不匹配问题。
  • 设计了 GraphPad 系统,使单个视觉语言模型(VLM)能够在推理过程中识别知识缺口并通过 API 更新 3D 表示。
  • OpenEQA 基准测试中,将空间问答准确率从 52.3% 提升至 55.3%,同时将处理的帧数减少了五倍。
Card 04 方法描述

方法描述

  • 构建了包含四个相互链接组件的 Structured Scene Memory (SSM):场景图、图形记事本、帧内存和导航日志。
  • 设计了三种可修改性 API 供 VLM 调用:find_objects(检测未见过实例)、analyze_objects(注释现有节点)和 analyze_frame(联合发现与注释)。
  • 采用代理推理循环,VLM 根据查询分析当前记忆,识别缺失信息,调用 API 更新记忆,直到获得足够信息。
  • 利用 SAM 进行掩码提取,使用 CLIP ViT-L/14BGE 提取特征嵌入,通过投票方案进行轨迹关联。
Card 05 数据集与资源

数据集与资源

  • 使用 OpenEQA 基准测试(包含 HM3DScanNet 场景)进行评估。
  • 使用 Gemini 2.0 Flash 作为核心视觉语言模型(VLM),同时用于推理和检测。
  • 使用 CLIP ViT-L/14 提取视觉嵌入,BGE 提取语言嵌入。
Card 06 评估与结果

评估与结果

  • OpenEQA 基准测试中,GraphPad 达到了 55.3% 的准确率,比仅使用图像的 Gemini 2.0 Flash 基线高 +3.0 pp
  • 系统仅需 5 个初始帧 即可达到上述性能,而基线模型通常处理 25 个帧,显示出极高的数据效率。
  • 消融实验表明,导航日志带来了最大的单项提升(+9.6 pp),可修改性 API 在静态场景表示基础上进一步提升了 +3.6 pp
  • 95% 的问题通过 5 次或更少的 API 调用即可解决,平均每个问题仅需 1.9 次 API 调用。