提出一个名为 GraSP-VLA 的神经符号框架，旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…

论文详情

GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies

2025-11-06 · 原文 · 翻译 · 2511.04357

提出一个名为 GraSP-VLA 的神经符号框架，旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因缺乏高层符号规划而性能下降的问题。核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述，并以此作为调度器来编排低层VLA策略。该研究目标是将 Scene Graph Generation (…

6 分钟读完 6 张阅读卡于默奥大学计算机科学系

一眼看懂封面预览

提出一个名为 GraSP-VLA 的神经符号框架，旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…

提出一个名为 GraSP-VLA 的神经符号框架，旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…
核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述，并以此…
该研究目标是将 Scene Graph Generation (SGG) 与 Action Model Learning (AML) 相结合…

Card 01 研究单位

研究单位

于默奥大学计算机科学系
PrioriAnalytica
Bretagne INP - ENIB
IMT Atlantique
CNRS IRL 2010 CROSSING

Card 02 论文概述

论文概述

提出一个名为 GraSP-VLA 的神经符号框架，旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因缺乏高层符号规划而性能下降的问题。
核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述，并以此作为调度器来编排低层VLA策略。
该研究目标是将 Scene Graph Generation (SGG) 与 Action Model Learning (AML) 相结合，实现从观测中自动生成规划域，并提升机器人在复杂任务中的技能组合能力。

Card 03 核心贡献

核心贡献

提出了 Multi-Layer Continuous Scene Graph (ML-CSG) ，将传统的场景图表示扩展为包含功能、拓扑、部分-整体和属性四个层面的连续时序结构，作为智能体的内部记忆。
设计了一种从连续场景图中自动生成 PDDL 规划域动作描述的新算法，实现了从视觉观测到符号化动作模型的自动提取。
构建了一个基于连续场景图的编排器，能够将长时程任务分解为原子技能序列，并调度预训练的VLA策略库进行执行。
实现了客户端-服务器的执行架构，用于管理预训练的VLA策略，验证了方法在真实世界机器人任务中的可行性。

Card 04 方法描述

方法描述

使用 REACT 模型作为 Scene Graph Generation (SGG) 的主干网络，并基于 YOLOv8 进行对象检测，生成多层场景图。
引入 Multi-Object Tracking (MOT) 算法（OC-SORT）使图节点在时间上持久化，并通过滑动窗口和置信度加权机制对关系预测进行状态精炼，构建 Continuous Scene Graph。
提出一种算法，通过比较连续场景图中功能层（如“holding”）与拓扑层（如“on”）关系的变化，自动提取动作的前置条件和效果，生成对应的 PDDL 动作描述。
在任务执行阶段，Action Orchestrator 利用生成的PDDL动作和当前场景图状态来验证前提条件，并通过客户端-服务器通信调用 Policy Bank 中对应的VLA策略。

Card 05 数据集与资源

数据集与资源

IndoorVG 数据集：用于训练和评估SGG模型，包含84个对象类和34个谓词类。
DAily Home LIfe Activity (DAHLIA) 数据集：用于验证连续场景图和动作描述生成算法，包含44个家庭日常活动的视频。
模型规模：使用 SmolVLA 作为底层VLA模型，并在自定义数据集上微调了6个原子策略（如 pick_knife, place_left 等）。
硬件资源：实验在搭载 NVIDIA GeForce RTX 3080 GPU 的笔记本电脑上进行。

Card 06 评估与结果

评估与结果

场景图生成评估：REACT模型在IndoorVG数据集上达到 R@50 为31.4，mR@50 为17.5，平均延迟为26.6毫秒。
动作描述生成评估：在DAHLIA数据集上，基线方法的召回率为0.69，但识别动作数量少；引入 Informative Selection 后动作识别数量显著增加，但召回率降至0.51，存在较多误报。
真实机器人评估：在餐桌布置任务中，GraSP-VLA在组合2、4、6个技能时的总体任务成功率分别为 0.6, 0.4, 0.4，远高于对完整任务进行端到端微调的基线方法（成功率分别为0.2, 0.1, 0.0）。
动作描述准确性：在真实实验中，GraSP-VLA生成正确PDDL动作描述的平均准确率达到 96%，证明了其符号化表征的有效性。