返回列表 VLA / Vision-Language-Action 每日论文卡

GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions

论文详情

GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions

2025-08-11 · 原文 · 翻译 · 2508.07650

提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务 解决现有VLA模型的两大核心问题:无法理解模糊语言指令和缺乏3D空间感知能力(仅依赖2D静态观察) 通过结构化思维链(Chain-of-Thought)推理和实时3D姿态-物体图,增强机器人在开放环境中的任务理解与执行能力

6 分钟读完 6 张阅读卡 论文作者:Helong Huang 1 , Min Cen 2 , Kai Tan 1 , Xingy…
一眼看懂 封面预览

提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务

  • 提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务
  • 解决现有VLA模型的两大核心问题:无法理解模糊语言指令和缺乏3D空间感知能力(仅依赖2D静态观察)
  • 通过结构化思维链(Chain-of-Thought)推理和实时3D姿态-物体图,增强机器人在开放环境中的任务理解与执行能力
Card 01 研究单位

研究单位

  • 论文作者:Helong Huang1, Min Cen2, Kai Tan1, Xingyue Quan1, Guowei Huang1, Hong Zhang3
  • 对应机构:1, 2, 3(具体机构名称未在提供的HTML中明确标注)
Card 02 论文概述

论文概述

  • 提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务
  • 解决现有VLA模型的两大核心问题:无法理解模糊语言指令缺乏3D空间感知能力(仅依赖2D静态观察)
  • 通过结构化思维链(Chain-of-Thought)推理和实时3D姿态-物体图,增强机器人在开放环境中的任务理解与执行能力
Card 03 核心贡献

核心贡献

  • 提出新型端到端模型 GraphCoT-VLA,支持模糊指令和开放世界条件下的机器人操作
  • 设计结构化 CoT推理模块,整合场景理解、任务反馈与未来想象能力
  • 构建实时可更新的 Pose-Object Graph,显式建模机器人与环境的3D空间交互关系
  • 引入基于Dropout的混合推理策略,平衡快速推理与深度推理,实现实时控制
  • 在真实机器人平台上验证,在任务成功率、动作流畅性、时序建模和任务泛化方面显著优于现有方法
Card 04 方法描述

方法描述

  • Pose-Object Graph构建:利用 YOLO-World 进行物体检测,结合深度图像和相机内外参,将2D检测框投影到3D空间;通过正运动学计算机器人关节位姿,构建包含物体节点和末端执行器节点的全连接图
  • 图编码器:采用两层图神经网络(GNN),包含层归一化、图卷积和ReLU激活,提取3D空间特征
  • 结构化CoT推理:基于 Qwen2.5-VL 实现四级推理——场景理解、指令可行性分析、失败反馈生成、未来状态想象(包括物体位置和机器人状态预测)
  • 整体架构:基于 π₀PaliGemma 构建VLM主干,视觉输入经ViT编码,与图特征和语言指令拼接后输入模型;输出分为CoT推理文本和动作专家模块(基于流匹配生成连续动作)
  • 联合训练策略:采用CoT监督Dropout机制,以概率p随机丢弃CoT监督,使模型同时学习推理引导模式和直接动作预测模式;推理时仅在首帧生成CoT,后续帧跳过推理直接预测动作
Card 05 数据集与资源

数据集与资源

  • 数据集:自建双臂机器人遥操作数据集,7自由度机械臂,包含头部、颈部和手部RGB-D相机数据
  • 任务Food Preparation(食物准备)和 Outfit Selection(服装选择)两大任务,各含3个子任务,共600条演示数据
  • 数据特点:物体位置随机平移10cm、旋转30°,服装排列方式多样
  • 模型规模:基于 PaliGemma(3B参数VLM)和 π₀ 架构
  • 训练资源:具体GPU/TPU配置未明确说明
Card 06 评估与结果

评估与结果

  • 评估基准:与 ACTDiffusion PolicyOcto(微调)、π₀(微调)四种SOTA方法对比
  • 评估指标:任务成功率(%),每个任务测试20次,仅完整完成任务计为成功
  • 关键结果

- Food Preparation任务:平均成功率 76.67%,比最佳基线Octo(66.67%)提升10%

- Outfit Selection任务:平均成功率 70.00%,比最佳基线π₀(51.67%)提升18.33%

- 消融实验:去除Pose-Object Graph导致成功率下降最多18.33%;去除CoT模块同样显著降低性能

- 推理效率:采用混合推理策略后,首帧CoT生成后后续帧保持 ~10Hz 推理频率,与π₀相当,无额外计算开销

- 定性优势:基线方法出现任务混淆(如误抓毛衣而非T恤),GraphCoT-VLA能正确理解模糊指令意图,动作更流畅、目标抓取更果断准确