一眼看懂
封面预览
论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
- 论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
- 核心思路是利用预训练的文本生成视频模型(T2V)来预测机器人轨迹,从而避免从头训练复杂的视觉-语言-动作(VLA)模型。
- 引入了一种基于光流的中间表示方法,将语言指令转化为物理运动轨迹,实现了高效的策略学习。
Card 01
研究单位
研究单位
- 中国电信人工智能研究院
- 西北工业大学
- 香港科技大学
Card 02
论文概述
论文概述
- 论文提出了 CogRobot 框架,旨在解决双臂机器人操作策略学习中数据稀缺、动作空间大以及双臂协调困难的问题。
- 核心思路是利用预训练的文本生成视频模型(T2V)来预测机器人轨迹,从而避免从头训练复杂的视觉-语言-动作(VLA)模型。
- 引入了一种基于光流的中间表示方法,将语言指令转化为物理运动轨迹,实现了高效的策略学习。
Card 03
核心贡献
核心贡献
- 提出了一种利用 T2V 模型训练双臂基础策略的框架,无需直接处理异构动作空间。
- 引入了两阶段范式(Text-to-Flow 和 Flow-to-Video),利用光流作为中间变量,减少了双臂操作对数据量的需求并缓解了语言歧义。
- 构建了双臂机器人平台并收集了高质量数据,在仿真和真实环境中验证了方法的有效性。
Card 04
方法描述
方法描述
- 基于 CogVideoX 模型进行微调,设计了 Text-to-Flow 和 Flow-to-Video 两个模块。
- Text-to-Flow 模块负责根据初始观察和语言指令预测光流序列,显式地建模手臂的运动和交互细节,将模糊的语言指令转化为具体的运动意图。
- Flow-to-Video 模块利用预测的光流作为引导条件,生成精细化的机器人操作视频,从而训练轻量级的扩散策略以生成具体动作。
Card 05
数据集与资源
数据集与资源
- 使用的数据集包括 RDT 和 RoboMIND 数据集,以及通过 VR 遥操作收集的真实世界双臂数据。
- 硬件平台包含两个 7 自由度的 Realman 机械臂和一个 Intel RealSense 相机。
- 基础模型使用 CogVideoX(包括 2B 和 5B 版本)。
Card 06
评估与结果
评估与结果
- 评估环境包括 Robotwin 仿真平台和真实世界双臂平台。
- 与直接微调的 CogVideoX-5B-SFT 和 CogVideoX-2B-SFT 等基线模型进行了对比。
- 实验结果表明,该方法在预测准确率和任务成功率上均优于基线,有效缓解了物理幻觉和任务混淆问题,展现出优秀的泛化能力。