返回列表 VLA / Vision-Language-Action 每日论文卡
Graph-Fused Vision-Language-Action for Policy Reasoning in Multi-Arm Robotic Manipulation
提出 GF-VLA(Graph-Fused Vision-Language-Action) 统一框架,使双臂机器人能够从单个人类RGB-D演示…

论文详情

Graph-Fused Vision-Language-Action for Policy Reasoning in Multi-Arm Robotic Manipulation

2025-09-09 · 原文 · 翻译 · 2509.07957

提出 GF-VLA(Graph-Fused Vision-Language-Action) 统一框架,使双臂机器人能够从单个人类RGB-D演示视频中直接进行任务级推理和执行 解决传统基于低层轨迹模仿的方法在跨物体、跨空间布局和跨机械臂配置泛化性不足的问题 通过信息论方法提取任务相关线索,构建时序场景图,并与语言条件Transformer融合生成可解释的行为树和笛卡尔运动基元

5 分钟读完 6 张阅读卡 Hangzhou Dianzi University(杭州电子科技大学):Shunlei Li, Ji…
一眼看懂 封面预览

提出 GF-VLA(Graph-Fused Vision-Language-Action) 统一框架,使双臂机器人能够从单个人类RGB-D演示…

  • 提出 GF-VLA(Graph-Fused Vision-Language-Action) 统一框架,使双臂机器人能够从单个人类RGB-D演示…
  • 解决传统基于低层轨迹模仿的方法在跨物体、跨空间布局和跨机械臂配置泛化性不足的问题
  • 通过信息论方法提取任务相关线索,构建时序场景图,并与语言条件Transformer融合生成可解释的行为树和笛卡尔运动基元
Card 01 研究单位

研究单位

  • Hangzhou Dianzi University(杭州电子科技大学):Shunlei Li, Jiuwen Cao(浙江省机器学习与智能健康国际合作基地、人工智能研究院)
  • The University of New Mexico:Longsen Gao(电气与计算机工程系)
  • Technical University of Munich(慕尼黑工业大学):Yingbai Hu(计算、信息与技术学院)
Card 02 论文概述

论文概述

  • 提出 GF-VLA(Graph-Fused Vision-Language-Action) 统一框架,使双臂机器人能够从单个人类RGB-D演示视频中直接进行任务级推理和执行
  • 解决传统基于低层轨迹模仿的方法在跨物体、跨空间布局和跨机械臂配置泛化性不足的问题
  • 通过信息论方法提取任务相关线索,构建时序场景图,并与语言条件Transformer融合生成可解释的行为树和笛卡尔运动基元
Card 03 核心贡献

核心贡献

  • 提出信息论方法从多模态人类演示中构建结构化场景图,显式编码动态物理交互(手-物交互HO、物-物交互OO)
  • 首创 GF-VLA 统一框架,将结构化交互建模与VLA推理相结合,实现鲁棒且可泛化的操作
  • Chain-of-Thought(CoT)提示 嵌入VLA模型,提供透明的子目标分解并提高执行可靠性
  • 提出跨臂分配策略,无需显式几何建模即可自主确定夹爪分配,优化双臂执行效率
Card 04 方法描述

方法描述

  • 信息论场景图生成:使用香农熵和互信息量化信号不确定性,通过滑动时间窗口检测手-物耦合运动(Coupled-Motion/Docked)和物-物交互(E-OO/T-OO)
  • 统一双头架构:基于 LLaMA-2(7B参数) 主干,集成LLM Head(高层语义规划与CoT推理)和Action Head(低层运动控制)
  • 动态双手选择策略:结合对侧先验策略(contralateral prior)与学习的MLP分类器,通过加权交叉熵优化实现双臂角色分配
  • 参数高效微调:采用 LoRA 适配器分别微调LLM Head和Action Head,冻结视觉编码器和投影器
Card 05 数据集与资源

数据集与资源

  • 人类演示数据集:250段RGB视频(10名参与者),涵盖字母符号组装和塔楼构建任务
  • 机器人执行数据集:240次双臂试验(UR5e + Robotiq 2F-85 和 UR10e + Barrett BH282),4类任务 × 3种形状 × 20次重复
  • 训练资源:单张 NVIDIA RTX 4090,约40小时微调,bfloat16推理延迟7.56秒
Card 06 评估与结果

评估与结果

  • 评估基准:四类双臂积木操作任务(形状泛化、空间关系歧义、绝对6D位姿执行、相对位姿执行)及六项策略迁移变体
  • 主要评估指标:图表示准确率(GRA)、任务分割准确率(TSA)、抓取成功率(GSR)、放置成功率(PSR)、6D位姿误差(6DPE)、指令符合度(ICS)、任务成功率(TSR)、双臂协调评分(BCS)、策略可迁移率(PTR)
  • 关键实验结果

- 图表示准确率 >95%,子任务分割准确率 93%

- 抓取可靠性 94%,放置准确率 89%,整体任务成功率 90%

- 形状泛化任务:GSR 98%,PSR 95%,6DPE 1.2cm + 2.5°

- 策略迁移:单演示泛化至6项新任务,TSR达 90%,PTR ≥83%