论文提出 CodeGraphVLP，旨在解决现有视觉-语言-动作（VLA）模型在非马尔可夫长程任务中的局限性，即模型通常仅依赖最新观察而忽略历…

论文详情

CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

2026-04-24 · 原文 · 翻译 · 2604.22238

论文提出 CodeGraphVLP，旨在解决现有视觉-语言-动作（VLA）模型在非马尔可夫长程任务中的局限性，即模型通常仅依赖最新观察而忽略历史关键信息。核心方案是结合持久的语义图状态、可执行的代码规划器以及进度引导的视觉语言提示，以实现鲁棒的长程机器人操作。该方法通过显式维护任务相关的实体和关系，并利用代码规划器高效推断进度，避免了高昂的 VLM 在线推理成本，同时增强了在杂乱场景下的视觉定位能力。

5 分钟读完 6 张阅读卡 University of Arkansas（美国阿肯色大学，主要单位）

一眼看懂封面预览

论文提出 CodeGraphVLP，旨在解决现有视觉-语言-动作（VLA）模型在非马尔可夫长程任务中的局限性，即模型通常仅依赖最新观察而忽略历…

论文提出 CodeGraphVLP，旨在解决现有视觉-语言-动作（VLA）模型在非马尔可夫长程任务中的局限性，即模型通常仅依赖最新观察而忽略历…
核心方案是结合持久的语义图状态、可执行的代码规划器以及进度引导的视觉语言提示，以实现鲁棒的长程机器人操作。
该方法通过显式维护任务相关的实体和关系，并利用代码规划器高效推断进度，避免了高昂的 VLM 在线推理成本，同时增强了在杂乱场景下的视觉定位能力。

Card 01 研究单位

研究单位

University of Arkansas（美国阿肯色大学，主要单位）
Max Planck Research School for Intelligent Systems and University of Stuttgart（德国斯图加特大学）
Google Research（谷歌研究院）
TU Wien（奥地利维也纳工业大学）
University of Liverpool（英国利物浦大学）

Card 02 论文概述

论文概述

论文提出 CodeGraphVLP，旨在解决现有视觉-语言-动作（VLA）模型在非马尔可夫长程任务中的局限性，即模型通常仅依赖最新观察而忽略历史关键信息。
核心方案是结合持久的语义图状态、可执行的代码规划器以及进度引导的视觉语言提示，以实现鲁棒的长程机器人操作。
该方法通过显式维护任务相关的实体和关系，并利用代码规划器高效推断进度，避免了高昂的 VLM 在线推理成本，同时增强了在杂乱场景下的视觉定位能力。

Card 03 核心贡献

核心贡献

提出了 CodeGraphVLP 框架，将代码规划器、持久语义图状态和去杂乱的视觉语言提示相结合，实现了对非马尔可夫长程任务的鲁棒控制。
展示了在语义图上运行的可执行代码如何高效跟踪任务进度、选择子任务，并生成子任务相关对象以辅助下游执行。
设计了三个具有非马尔可夫依赖特性的真实桌面操作任务，证明了该方法在提高任务成功率的同时显著降低了规划延迟。

Card 04 方法描述

方法描述

构建语义图状态：通过对象分割、任务相关性识别、多视图关联和关系推导，初始化并在线更新包含实体节点和关系边的结构化状态。
代码规划器：利用 LLM（如 GPT-5）一次性合成可执行的 Python 程序，该程序查询语义图以检查进度并输出下一个子任务指令及相关对象，无需在执行过程中反复调用 VLM。
去杂乱视觉语言提示：根据规划器输出的相关对象集合，对原始 RGB 图像进行掩码处理，屏蔽无关物体（杂乱），生成仅包含关键视觉证据的输入，配合子任务语言指令引导 VLA 执行器。

Card 05 数据集与资源

数据集与资源

使用了自采集的遥操作演示数据集：Pick-and-Place Twice（100 条轨迹）、Place-and-Stack（100 条轨迹）、Swap Cups（200 条轨迹）。
基础模型为 $\pi_0$，并使用 LoRA 进行微调，训练在 4 张 NVIDIA A6000 GPU 上进行。
代码规划器由 GPT-5 合成。

Card 06 评估与结果

评估与结果

在真实世界的 UR10e 机械臂平台上进行评估，包含三个非马尔可夫桌面任务。
主要评估指标为任务成功率及规划延迟时间。
实验结果显示，CodeGraphVLP 的平均成功率达到 81.7%，显著优于最强基线 Gr00T N1.5 + Multi-frame（56.7%）及其他 VLA 模型。
规划延迟方面，CodeGraphVLP 仅需 0.328 sec/step，远低于基于 VLM 在线规划的 2.967 sec/step，证明了代码规划的高效性。