Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

论文详情

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

2025-05-30 · 原文 · 翻译 · 2505.24156

论文提出了 CogRobot 框架，旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。核心思路是利用预训练的文本生成视频模型（T2V）来预测机器人轨迹，从而避免从头训练复杂的视觉-语言-动作（VLA）模型。引入了一种基于光流的中间表示方法，将语言指令转化为物理运动轨迹，实现了高效的策略学习。

4 分钟读完 6 张阅读卡中国电信人工智能研究院

一眼看懂封面预览

论文提出了 CogRobot 框架，旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。

论文提出了 CogRobot 框架，旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
核心思路是利用预训练的文本生成视频模型（T2V）来预测机器人轨迹，从而避免从头训练复杂的视觉-语言-动作（VLA）模型。
引入了一种基于光流的中间表示方法，将语言指令转化为物理运动轨迹，实现了高效的策略学习。

Card 01 研究单位

研究单位

中国电信人工智能研究院
西北工业大学
香港科技大学

Card 02 论文概述

论文概述

论文提出了 CogRobot 框架，旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
核心思路是利用预训练的文本生成视频模型（T2V）来预测机器人轨迹，从而避免从头训练复杂的视觉-语言-动作（VLA）模型。
引入了一种基于光流的中间表示方法，将语言指令转化为物理运动轨迹，实现了高效的策略学习。

Card 03 核心贡献

核心贡献

提出了一种利用 T2V 模型训练双臂基础策略的框架，无需直接处理异构动作空间。
引入了两阶段范式（Text-to-Flow 和 Flow-to-Video），利用光流作为中间变量，减少了双臂操作对数据量的需求并缓解了语言歧义。
构建了双臂机器人平台并收集了高质量数据，在仿真和真实环境中验证了方法的有效性。

Card 04 方法描述

方法描述

基于 CogVideoX 模型进行微调，设计了 Text-to-Flow 和 Flow-to-Video 两个模块。
Text-to-Flow 模块负责根据初始观察和语言指令预测光流序列，显式地建模手臂的运动和交互细节，将模糊的语言指令转化为具体的运动意图。
Flow-to-Video 模块利用预测的光流作为引导条件，生成精细化的机器人操作视频，从而训练轻量级的扩散策略以生成具体动作。

Card 05 数据集与资源

数据集与资源

使用的数据集包括 RDT 和 RoboMIND 数据集，以及通过 VR 遥操作收集的真实世界双臂数据。
硬件平台包含两个 7 自由度的 Realman 机械臂和一个 Intel RealSense 相机。
基础模型使用 CogVideoX（包括 2B 和 5B 版本）。

Card 06 评估与结果

评估与结果

评估环境包括 Robotwin 仿真平台和真实世界双臂平台。
与直接微调的 CogVideoX-5B-SFT 和 CogVideoX-2B-SFT 等基线模型进行了对比。
实验结果表明，该方法在预测准确率和任务成功率上均优于基线，有效缓解了物理幻觉和任务混淆问题，展现出优秀的泛化能力。