返回列表 VLA / Vision-Language-Action 每日论文卡
GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies
提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…

论文详情

GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies

2025-11-06 · 原文 · 翻译 · 2511.04357

提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因缺乏高层符号规划而性能下降的问题。 核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述,并以此作为调度器来编排低层VLA策略。 该研究目标是将 Scene Graph Generation (…

6 分钟读完 6 张阅读卡 于默奥大学计算机科学系
一眼看懂 封面预览

提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…

  • 提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…
  • 核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述,并以此…
  • 该研究目标是将 Scene Graph Generation (SGG) 与 Action Model Learning (AML) 相结合…
Card 01 研究单位

研究单位

  • 于默奥大学计算机科学系
  • PrioriAnalytica
  • Bretagne INP - ENIB
  • IMT Atlantique
  • CNRS IRL 2010 CROSSING
Card 02 论文概述

论文概述

  • 提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因缺乏高层符号规划而性能下降的问题。
  • 核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述,并以此作为调度器来编排低层VLA策略。
  • 该研究目标是将 Scene Graph Generation (SGG)Action Model Learning (AML) 相结合,实现从观测中自动生成规划域,并提升机器人在复杂任务中的技能组合能力。
Card 03 核心贡献

核心贡献

  • 提出了 Multi-Layer Continuous Scene Graph (ML-CSG) ,将传统的场景图表示扩展为包含功能、拓扑、部分-整体和属性四个层面的连续时序结构,作为智能体的内部记忆。
  • 设计了一种从连续场景图中自动生成 PDDL 规划域动作描述的新算法,实现了从视觉观测到符号化动作模型的自动提取。
  • 构建了一个基于连续场景图的编排器,能够将长时程任务分解为原子技能序列,并调度预训练的VLA策略库进行执行。
  • 实现了客户端-服务器的执行架构,用于管理预训练的VLA策略,验证了方法在真实世界机器人任务中的可行性。
Card 04 方法描述

方法描述

  • 使用 REACT 模型作为 Scene Graph Generation (SGG) 的主干网络,并基于 YOLOv8 进行对象检测,生成多层场景图。
  • 引入 Multi-Object Tracking (MOT) 算法(OC-SORT)使图节点在时间上持久化,并通过滑动窗口和置信度加权机制对关系预测进行状态精炼,构建 Continuous Scene Graph
  • 提出一种算法,通过比较连续场景图中功能层(如“holding”)与拓扑层(如“on”)关系的变化,自动提取动作的前置条件和效果,生成对应的 PDDL 动作描述。
  • 在任务执行阶段,Action Orchestrator 利用生成的PDDL动作和当前场景图状态来验证前提条件,并通过客户端-服务器通信调用 Policy Bank 中对应的VLA策略。
Card 05 数据集与资源

数据集与资源

  • IndoorVG 数据集:用于训练和评估SGG模型,包含84个对象类和34个谓词类。
  • DAily Home LIfe Activity (DAHLIA) 数据集:用于验证连续场景图和动作描述生成算法,包含44个家庭日常活动的视频。
  • 模型规模:使用 SmolVLA 作为底层VLA模型,并在自定义数据集上微调了6个原子策略(如 pick_knife, place_left 等)。
  • 硬件资源:实验在搭载 NVIDIA GeForce RTX 3080 GPU 的笔记本电脑上进行。
Card 06 评估与结果

评估与结果

  • 场景图生成评估:REACT模型在IndoorVG数据集上达到 R@50 为31.4,mR@50 为17.5,平均延迟为26.6毫秒。
  • 动作描述生成评估:在DAHLIA数据集上,基线方法的召回率为0.69,但识别动作数量少;引入 Informative Selection 后动作识别数量显著增加,但召回率降至0.51,存在较多误报。
  • 真实机器人评估:在餐桌布置任务中,GraSP-VLA在组合2、4、6个技能时的总体任务成功率分别为 0.6, 0.4, 0.4,远高于对完整任务进行端到端微调的基线方法(成功率分别为0.2, 0.1, 0.0)。
  • 动作描述准确性:在真实实验中,GraSP-VLA生成正确PDDL动作描述的平均准确率达到 96%,证明了其符号化表征的有效性。