一眼看懂
封面预览
提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…
- 提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因…
- 核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述,并以此…
- 该研究目标是将 Scene Graph Generation (SGG) 与 Action Model Learning (AML) 相结合…
Card 01
研究单位
研究单位
- 于默奥大学计算机科学系
- PrioriAnalytica
- Bretagne INP - ENIB
- IMT Atlantique
- CNRS IRL 2010 CROSSING
Card 02
论文概述
论文概述
- 提出一个名为 GraSP-VLA 的神经符号框架,旨在解决现有 Vision-Language Action (VLA) 模型在长时程任务中因缺乏高层符号规划而性能下降的问题。
- 核心方法是利用 Multi-Layer Continuous Scene Graph (ML-CSG) 表示来生成人类演示的符号化描述,并以此作为调度器来编排低层VLA策略。
- 该研究目标是将 Scene Graph Generation (SGG) 与 Action Model Learning (AML) 相结合,实现从观测中自动生成规划域,并提升机器人在复杂任务中的技能组合能力。
Card 03
核心贡献
核心贡献
- 提出了 Multi-Layer Continuous Scene Graph (ML-CSG) ,将传统的场景图表示扩展为包含功能、拓扑、部分-整体和属性四个层面的连续时序结构,作为智能体的内部记忆。
- 设计了一种从连续场景图中自动生成 PDDL 规划域动作描述的新算法,实现了从视觉观测到符号化动作模型的自动提取。
- 构建了一个基于连续场景图的编排器,能够将长时程任务分解为原子技能序列,并调度预训练的VLA策略库进行执行。
- 实现了客户端-服务器的执行架构,用于管理预训练的VLA策略,验证了方法在真实世界机器人任务中的可行性。
Card 04
方法描述
方法描述
- 使用 REACT 模型作为 Scene Graph Generation (SGG) 的主干网络,并基于 YOLOv8 进行对象检测,生成多层场景图。
- 引入 Multi-Object Tracking (MOT) 算法(OC-SORT)使图节点在时间上持久化,并通过滑动窗口和置信度加权机制对关系预测进行状态精炼,构建 Continuous Scene Graph。
- 提出一种算法,通过比较连续场景图中功能层(如“holding”)与拓扑层(如“on”)关系的变化,自动提取动作的前置条件和效果,生成对应的 PDDL 动作描述。
- 在任务执行阶段,Action Orchestrator 利用生成的PDDL动作和当前场景图状态来验证前提条件,并通过客户端-服务器通信调用 Policy Bank 中对应的VLA策略。
Card 05
数据集与资源
数据集与资源
- IndoorVG 数据集:用于训练和评估SGG模型,包含84个对象类和34个谓词类。
- DAily Home LIfe Activity (DAHLIA) 数据集:用于验证连续场景图和动作描述生成算法,包含44个家庭日常活动的视频。
- 模型规模:使用 SmolVLA 作为底层VLA模型,并在自定义数据集上微调了6个原子策略(如 pick_knife, place_left 等)。
- 硬件资源:实验在搭载 NVIDIA GeForce RTX 3080 GPU 的笔记本电脑上进行。
Card 06
评估与结果
评估与结果
- 场景图生成评估:REACT模型在IndoorVG数据集上达到 R@50 为31.4,mR@50 为17.5,平均延迟为26.6毫秒。
- 动作描述生成评估:在DAHLIA数据集上,基线方法的召回率为0.69,但识别动作数量少;引入 Informative Selection 后动作识别数量显著增加,但召回率降至0.51,存在较多误报。
- 真实机器人评估:在餐桌布置任务中,GraSP-VLA在组合2、4、6个技能时的总体任务成功率分别为 0.6, 0.4, 0.4,远高于对完整任务进行端到端微调的基线方法(成功率分别为0.2, 0.1, 0.0)。
- 动作描述准确性:在真实实验中,GraSP-VLA生成正确PDDL动作描述的平均准确率达到 96%,证明了其符号化表征的有效性。