返回列表 VLA / Vision-Language-Action 每日论文卡

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

论文详情

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

2025-05-30 · 原文 · 翻译 · 2505.24156

论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。 核心思路是利用预训练的文本生成视频模型(T2V)来预测机器人轨迹,从而避免从头训练复杂的视觉-语言-动作(VLA)模型。 引入了一种基于光流的中间表示方法,将语言指令转化为物理运动轨迹,实现了高效的策略学习。

4 分钟读完 6 张阅读卡 中国电信人工智能研究院
一眼看懂 封面预览

论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。

  • 论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
  • 核心思路是利用预训练的文本生成视频模型(T2V)来预测机器人轨迹,从而避免从头训练复杂的视觉-语言-动作(VLA)模型。
  • 引入了一种基于光流的中间表示方法,将语言指令转化为物理运动轨迹,实现了高效的策略学习。
Card 01 研究单位

研究单位

  • 中国电信人工智能研究院
  • 西北工业大学
  • 香港科技大学
Card 02 论文概述

论文概述

  • 论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
  • 核心思路是利用预训练的文本生成视频模型(T2V)来预测机器人轨迹,从而避免从头训练复杂的视觉-语言-动作(VLA)模型。
  • 引入了一种基于光流的中间表示方法,将语言指令转化为物理运动轨迹,实现了高效的策略学习。
Card 03 核心贡献

核心贡献

  • 提出了一种利用 T2V 模型训练双臂基础策略的框架,无需直接处理异构动作空间。
  • 引入了两阶段范式(Text-to-Flow 和 Flow-to-Video),利用光流作为中间变量,减少了双臂操作对数据量的需求并缓解了语言歧义。
  • 构建了双臂机器人平台并收集了高质量数据,在仿真和真实环境中验证了方法的有效性。
Card 04 方法描述

方法描述

  • 基于 CogVideoX 模型进行微调,设计了 Text-to-FlowFlow-to-Video 两个模块。
  • Text-to-Flow 模块负责根据初始观察和语言指令预测光流序列,显式地建模手臂的运动和交互细节,将模糊的语言指令转化为具体的运动意图。
  • Flow-to-Video 模块利用预测的光流作为引导条件,生成精细化的机器人操作视频,从而训练轻量级的扩散策略以生成具体动作。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集包括 RDTRoboMIND 数据集,以及通过 VR 遥操作收集的真实世界双臂数据。
  • 硬件平台包含两个 7 自由度的 Realman 机械臂和一个 Intel RealSense 相机。
  • 基础模型使用 CogVideoX(包括 2B 和 5B 版本)。
Card 06 评估与结果

评估与结果

  • 评估环境包括 Robotwin 仿真平台和真实世界双臂平台。
  • 与直接微调的 CogVideoX-5B-SFTCogVideoX-2B-SFT 等基线模型进行了对比。
  • 实验结果表明,该方法在预测准确率和任务成功率上均优于基线,有效缓解了物理幻觉和任务混淆问题,展现出优秀的泛化能力。