一眼看懂
封面预览
提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务
- 提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务
- 解决现有VLA模型的两大核心问题:无法理解模糊语言指令和缺乏3D空间感知能力(仅依赖2D静态观察)
- 通过结构化思维链(Chain-of-Thought)推理和实时3D姿态-物体图,增强机器人在开放环境中的任务理解与执行能力
Card 01
研究单位
研究单位
- 论文作者:Helong Huang1, Min Cen2, Kai Tan1, Xingyue Quan1, Guowei Huang1, Hong Zhang3
- 对应机构:1, 2, 3(具体机构名称未在提供的HTML中明确标注)
Card 02
论文概述
论文概述
- 提出 GraphCoT-VLA,一个端到端的视觉-语言-动作(VLA)模型,专门用于处理模糊指令下的机器人操作任务
- 解决现有VLA模型的两大核心问题:无法理解模糊语言指令和缺乏3D空间感知能力(仅依赖2D静态观察)
- 通过结构化思维链(Chain-of-Thought)推理和实时3D姿态-物体图,增强机器人在开放环境中的任务理解与执行能力
Card 03
核心贡献
核心贡献
- 提出新型端到端模型 GraphCoT-VLA,支持模糊指令和开放世界条件下的机器人操作
- 设计结构化 CoT推理模块,整合场景理解、任务反馈与未来想象能力
- 构建实时可更新的 Pose-Object Graph,显式建模机器人与环境的3D空间交互关系
- 引入基于Dropout的混合推理策略,平衡快速推理与深度推理,实现实时控制
- 在真实机器人平台上验证,在任务成功率、动作流畅性、时序建模和任务泛化方面显著优于现有方法
Card 04
方法描述
方法描述
- Pose-Object Graph构建:利用 YOLO-World 进行物体检测,结合深度图像和相机内外参,将2D检测框投影到3D空间;通过正运动学计算机器人关节位姿,构建包含物体节点和末端执行器节点的全连接图
- 图编码器:采用两层图神经网络(GNN),包含层归一化、图卷积和ReLU激活,提取3D空间特征
- 结构化CoT推理:基于 Qwen2.5-VL 实现四级推理——场景理解、指令可行性分析、失败反馈生成、未来状态想象(包括物体位置和机器人状态预测)
- 整体架构:基于 π₀ 和 PaliGemma 构建VLM主干,视觉输入经ViT编码,与图特征和语言指令拼接后输入模型;输出分为CoT推理文本和动作专家模块(基于流匹配生成连续动作)
- 联合训练策略:采用CoT监督Dropout机制,以概率p随机丢弃CoT监督,使模型同时学习推理引导模式和直接动作预测模式;推理时仅在首帧生成CoT,后续帧跳过推理直接预测动作
Card 05
数据集与资源
数据集与资源
- 数据集:自建双臂机器人遥操作数据集,7自由度机械臂,包含头部、颈部和手部RGB-D相机数据
- 任务:Food Preparation(食物准备)和 Outfit Selection(服装选择)两大任务,各含3个子任务,共600条演示数据
- 数据特点:物体位置随机平移10cm、旋转30°,服装排列方式多样
- 模型规模:基于 PaliGemma(3B参数VLM)和 π₀ 架构
- 训练资源:具体GPU/TPU配置未明确说明
Card 06
评估与结果
评估与结果
- 评估基准:与 ACT、Diffusion Policy、Octo(微调)、π₀(微调)四种SOTA方法对比
- 评估指标:任务成功率(%),每个任务测试20次,仅完整完成任务计为成功
- 关键结果:
- Food Preparation任务:平均成功率 76.67%,比最佳基线Octo(66.67%)提升10%
- Outfit Selection任务:平均成功率 70.00%,比最佳基线π₀(51.67%)提升18.33%
- 消融实验:去除Pose-Object Graph导致成功率下降最多18.33%;去除CoT模块同样显著降低性能
- 推理效率:采用混合推理策略后,首帧CoT生成后后续帧保持 ~10Hz 推理频率,与π₀相当,无额外计算开销
- 定性优势:基线方法出现任务混淆(如误抓毛衣而非T恤),GraphCoT-VLA能正确理解模糊指令意图,动作更流畅、目标抓取更果断准确