一眼看懂
封面预览
论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
- 论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
- 提出了 GraphPad,这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
- 该系统允许智能体识别知识盲区,并按需更新场景图、导航日志和临时记事本,从而解决任务与记忆不匹配的问题。
Card 01
研究单位
研究单位
- University of Waterloo
- University of California, Los Angeles
Card 02
论文概述
论文概述
- 论文针对具身智能体中静态 3D 场景图无法根据下游任务变化动态调整、导致关键信息缺失的问题进行研究。
- 提出了 GraphPad,这是一个可在推理时通过语言级 API 调用进行动态修改的结构化记忆系统。
- 该系统允许智能体识别知识盲区,并按需更新场景图、导航日志和临时记事本,从而解决任务与记忆不匹配的问题。
Card 03
核心贡献
核心贡献
- 提出了“语言驱动的在线编辑”概念,解决了固定场景图中固有的任务与记忆不匹配问题。
- 设计了 GraphPad 系统,使单个视觉语言模型(VLM)能够在推理过程中识别知识缺口并通过 API 更新 3D 表示。
- 在 OpenEQA 基准测试中,将空间问答准确率从 52.3% 提升至 55.3%,同时将处理的帧数减少了五倍。
Card 04
方法描述
方法描述
- 构建了包含四个相互链接组件的 Structured Scene Memory (SSM):场景图、图形记事本、帧内存和导航日志。
- 设计了三种可修改性 API 供 VLM 调用:
find_objects(检测未见过实例)、analyze_objects(注释现有节点)和analyze_frame(联合发现与注释)。 - 采用代理推理循环,VLM 根据查询分析当前记忆,识别缺失信息,调用 API 更新记忆,直到获得足够信息。
- 利用 SAM 进行掩码提取,使用 CLIP ViT-L/14 和 BGE 提取特征嵌入,通过投票方案进行轨迹关联。
Card 05
数据集与资源
数据集与资源
- 使用 OpenEQA 基准测试(包含 HM3D 和 ScanNet 场景)进行评估。
- 使用 Gemini 2.0 Flash 作为核心视觉语言模型(VLM),同时用于推理和检测。
- 使用 CLIP ViT-L/14 提取视觉嵌入,BGE 提取语言嵌入。
Card 06
评估与结果
评估与结果
- 在 OpenEQA 基准测试中,GraphPad 达到了 55.3% 的准确率,比仅使用图像的 Gemini 2.0 Flash 基线高 +3.0 pp。
- 系统仅需 5 个初始帧 即可达到上述性能,而基线模型通常处理 25 个帧,显示出极高的数据效率。
- 消融实验表明,导航日志带来了最大的单项提升(+9.6 pp),可修改性 API 在静态场景表示基础上进一步提升了 +3.6 pp。
- 95% 的问题通过 5 次或更少的 API 调用即可解决,平均每个问题仅需 1.9 次 API 调用。