返回列表 VLA / Vision-Language-Action 每日论文卡

4D Visual Pre-training for Robot Learning

论文详情

4D Visual Pre-training for Robot Learning

2025-08-24 · 原文 · 翻译 · 2508.17230

提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示 解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题,利用扩散模型在点云序列上进行自监督预训练 旨在为3D模仿学习方法提供通用的预训练模块,提升机器人操作任务的性能和泛化能力

5 分钟读完 6 张阅读卡 北京大学(Peking University)
一眼看懂 封面预览

提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示

  • 提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示
  • 解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题,利用扩散模型在点云序列上进行自监督预训练
  • 旨在为3D模仿学习方法提供通用的预训练模块,提升机器人操作任务的性能和泛化能力
Card 01 研究单位

研究单位

  • 北京大学(Peking University)
  • 清华大学(Tsinghua University)
  • 上海期智研究院(Shanghai Qizhi Institute)
  • 中国科学院自动化研究所(CASIA)
  • 上海人工智能实验室(Shanghai AI Lab)
Card 02 论文概述

论文概述

  • 提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示
  • 解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题,利用扩散模型在点云序列上进行自监督预训练
  • 旨在为3D模仿学习方法提供通用的预训练模块,提升机器人操作任务的性能和泛化能力
Card 03 核心贡献

核心贡献

  • 提出首个通用的4D视觉预训练框架FVP,将预训练目标定义为下一帧点云预测问题
  • 采用条件扩散模型建模点云预测,结合历史帧点云和机器人动作信息学习动态视觉表示
  • 在12个真实世界操作任务上,FVP预训练的DP3平均成功率提升28%,达到模仿学习方法的最优性能
  • FVP可迁移至多种3D编码器(PointNet++、Point Transformer、DP3 Encoder等)和多种机器人平台(单臂、双臂、人形机器人)
  • 成功将FVP应用于大规模视觉-语言-动作模型RDT-1B,显著提升其空间理解、任务泛化和长程任务执行能力
Card 04 方法描述

方法描述

  • 核心思想:利用历史帧点云和机器人动作,通过扩散模型预测当前帧点云,学习具有时序动态特性的3D视觉表示
  • 技术细节

- 使用标准3D编码器(如PointNet++、Point Transformer)编码历史点云为潜在表示

- 采用改进的Point-Voxel Diffusion网络,以潜在表示为条件,将高斯噪声逐步去噪为下一帧点云

- 在下游任务中,用预训练编码器替换原始视觉编码器,端到端微调策略网络

  • 创新点:区别于传统对比学习和点云重建方法,FVP通过预测未来状态强制模型学习物理环境的动态变化规律
Card 05 数据集与资源

数据集与资源

  • 仿真数据集Adroit(灵巧手操作任务)、MetaWorld(50个多样化操作任务)
  • 真实世界数据:50条专家演示轨迹,涵盖UR5单臂(夹爪/灵巧手)、AgileX双臂、TianGong人形机器人
  • 跨域预训练数据RoboMind数据集(多具身智能规范数据)
  • 模型规模:FVP预训练框架兼容多种轻量级3D编码器,未明确说明参数量
  • 训练资源:论文未明确说明具体GPU/TPU配置
Card 06 评估与结果

评估与结果

  • 仿真环境:Adroit和MetaWorld基准测试
  • 真实世界平台:UR5单臂(夹爪+16自由度Leap Hand灵巧手)、AgileX双臂机器人、TianGong人形机器人
  • 评估指标:任务成功率(Success Rate)
  • 关键结果

- 仿真任务:FVP预训练DP3在域内数据上平均提升17%,跨域数据上提升24.7%

- 真实任务:相比DP3/RISE基线,FVP实现15%~55%的绝对性能提升

- VLA模型:RDT-1B结合FVP预训练3D编码器,在空间理解(14/20 vs 8/20)、知识迁移(16/20 vs 10/20)、长程任务(3/20 vs 0/20)上显著优于2D图像输入版本