GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions

一眼看懂封面预览

提出 GraphCoT-VLA，一个端到端的视觉-语言-动作（VLA）模型，专门用于处理模糊指令下的机器人操作任务

Card 01 研究单位

研究单位

论文作者：Helong Huang¹, Min Cen², Kai Tan¹, Xingyue Quan¹, Guowei Huang¹, Hong Zhang³
对应机构：1, 2, 3（具体机构名称未在提供的HTML中明确标注）

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

Pose-Object Graph构建：利用 YOLO-World 进行物体检测，结合深度图像和相机内外参，将2D检测框投影到3D空间；通过正运动学计算机器人关节位姿，构建包含物体节点和末端执行器节点的全连接图
图编码器：采用两层图神经网络（GNN），包含层归一化、图卷积和ReLU激活，提取3D空间特征
结构化CoT推理：基于 Qwen2.5-VL 实现四级推理——场景理解、指令可行性分析、失败反馈生成、未来状态想象（包括物体位置和机器人状态预测）
整体架构：基于 π₀ 和 PaliGemma 构建VLM主干，视觉输入经ViT编码，与图特征和语言指令拼接后输入模型；输出分为CoT推理文本和动作专家模块（基于流匹配生成连续动作）
联合训练策略：采用CoT监督Dropout机制，以概率p随机丢弃CoT监督，使模型同时学习推理引导模式和直接动作预测模式；推理时仅在首帧生成CoT，后续帧跳过推理直接预测动作

Card 05 数据集与资源

Card 06 评估与结果

- Food Preparation任务：平均成功率 76.67%，比最佳基线Octo（66.67%）提升10%

- Outfit Selection任务：平均成功率 70.00%，比最佳基线π₀（51.67%）提升18.33%

- 消融实验：去除Pose-Object Graph导致成功率下降最多18.33%；去除CoT模块同样显著降低性能

- 推理效率：采用混合推理策略后，首帧CoT生成后后续帧保持 ~10Hz 推理频率，与π₀相当，无额外计算开销

- 定性优势：基线方法出现任务混淆（如误抓毛衣而非T恤），GraphCoT-VLA能正确理解模糊指令意图，动作更流畅、目标抓取更果断准确