返回列表 VLA / Vision-Language-Action 每日论文卡

Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

论文详情

Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

2025-08-07 · 原文 · 翻译 · 2508.05342

提出 Graph-Fused Vision-Language-Action (GF-VLA) 框架,实现从单个人类演示视频到双臂机器人操作任务的策略迁移 解决现有 VLA 模型 在精确物理交互建模、细粒度时空关系捕捉和双臂协调控制方面的局限性 通过信息论驱动的场景图表示,弥合高层语义推理与低层物理理解之间的鸿沟

6 分钟读完 6 张阅读卡 Hangzhou Dianzi University(杭州电子科技大学),人工智能研究所,机器学习与健…
一眼看懂 封面预览

提出 Graph-Fused Vision-Language-Action (GF-VLA) 框架,实现从单个人类演示视频到双臂机器人操作任务…

  • 提出 Graph-Fused Vision-Language-Action (GF-VLA) 框架,实现从单个人类演示视频到双臂机器人操作任务…
  • 解决现有 VLA 模型 在精确物理交互建模、细粒度时空关系捕捉和双臂协调控制方面的局限性
  • 通过信息论驱动的场景图表示,弥合高层语义推理与低层物理理解之间的鸿沟
Card 01 研究单位

研究单位

  • Hangzhou Dianzi University(杭州电子科技大学),人工智能研究所,机器学习与健康国际合作基地
  • University of New Mexico(新墨西哥大学),电气与计算机工程系
  • University of Oxford(牛津大学),牛津机器人研究所,动态机器人系统组
  • The George Washington University(乔治华盛顿大学),机械与航空航天工程系
  • University of Alabama at Birmingham(阿拉巴马大学伯明翰分校),计算机科学系
  • Technical University of Munich(慕尼黑工业大学),计算、信息技术学院
  • Politecnico di Milano(米兰理工大学),机械工程系
Card 02 论文概述

论文概述

  • 提出 Graph-Fused Vision-Language-Action (GF-VLA) 框架,实现从单个人类演示视频到双臂机器人操作任务的策略迁移
  • 解决现有 VLA 模型 在精确物理交互建模、细粒度时空关系捕捉和双臂协调控制方面的局限性
  • 通过信息论驱动的场景图表示,弥合高层语义推理与低层物理理解之间的鸿沟
Card 03 核心贡献

核心贡献

  • 提出基于 香农信息论 的时序场景图构建方法,从多模态人类演示数据中显式编码动态物理交互
  • 建立 GF-VLA 统一范式,首次系统整合结构化物理交互建模与视觉-语言-动作推理
  • 开创性将 思维链 (Chain-of-Thought) 提示与 VLA 模型结合,实现显式子目标分解与可解释策略生成
  • 提出 跨手选择策略,基于空间几何关系动态优化双臂任务分配,无需显式几何推理
  • 在双臂操作基准上达到 90% 整体任务成功率,在图表示准确性 (95%) 和子任务分割 (93%) 上创造新标杆
Card 04 方法描述

方法描述

  • 信息论场景图生成:利用 熵 (Entropy)互信息 (Mutual Information) 量化手部-物体及物体-物体间的动态交互,识别 Coupled-Motion(耦合运动)和 Docked(停靠)两种 HO 交互,以及 E-OO(高效 OO)和 T-OO(瞬时 OO)两种 OO 交互
  • 统一双头架构:结合视觉-语言专家(处理感知与语义)和动作专家(预测高维连续运动),采用 条件流匹配动作分块 技术
  • 思维链引导的语义策略规划:通过 LLM 生成层级化行为树和可解释的笛卡尔运动指令,支持自验证和局部重规划
  • 参数高效微调:采用 LoRA 进行多头部微调,实现形状泛化、空间关系推理、绝对 6D 位姿执行和相对位姿执行
Card 05 数据集与资源

数据集与资源

  • 双臂积木装配任务 上进行评估,包括符号形状构建(字母拼写、几何重构)和空间泛化场景
  • 使用 SAM2 进行物体分割,FingerPoseNet 进行手部姿态估计
  • 从单个人类 RGB(-D) 演示视频提取时序信息,通过滑动时间窗口 φ 计算信息论指标
Card 06 评估与结果

评估与结果

  • 任务表示评估:图表示准确率 GRA > 95%,子任务分割准确率 TSA > 93%
  • 任务规划评估:计划覆盖率 PC、排序准确率 OA、思维链可解释性 CI、验证正确性 VC 等指标表现优异
  • 积木操作评估:抓取成功率 GSR = 94%,放置成功率 PSR = 89%,6D 位姿放置误差 6DPE 低,指令遵循分数 ICS
  • 任务操作评估:整体任务成功率 TSR = 90%,双臂协调分数 BCS 优异,计划迁移率 PTR 表现稳健
  • 在堆叠、字母构建和几何重构等多种场景下展现出强大的跨空间布局和语义变化泛化能力