一眼看懂
封面预览
提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示
- 提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示
- 解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题,利用扩散模型在点云序列上进行自监督预训练
- 旨在为3D模仿学习方法提供通用的预训练模块,提升机器人操作任务的性能和泛化能力
Card 01
研究单位
研究单位
- 北京大学(Peking University)
- 清华大学(Tsinghua University)
- 上海期智研究院(Shanghai Qizhi Institute)
- 中国科学院自动化研究所(CASIA)
- 上海人工智能实验室(Shanghai AI Lab)
Card 02
论文概述
论文概述
- 提出 FVP(4D Visual Pre-training),一种用于机器人学习的4D视觉预训练框架,通过预测下一帧点云来学习3D视觉表示
- 解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题,利用扩散模型在点云序列上进行自监督预训练
- 旨在为3D模仿学习方法提供通用的预训练模块,提升机器人操作任务的性能和泛化能力
Card 03
核心贡献
核心贡献
- 提出首个通用的4D视觉预训练框架FVP,将预训练目标定义为下一帧点云预测问题
- 采用条件扩散模型建模点云预测,结合历史帧点云和机器人动作信息学习动态视觉表示
- 在12个真实世界操作任务上,FVP预训练的DP3平均成功率提升28%,达到模仿学习方法的最优性能
- FVP可迁移至多种3D编码器(PointNet++、Point Transformer、DP3 Encoder等)和多种机器人平台(单臂、双臂、人形机器人)
- 成功将FVP应用于大规模视觉-语言-动作模型RDT-1B,显著提升其空间理解、任务泛化和长程任务执行能力
Card 04
方法描述
方法描述
- 核心思想:利用历史帧点云和机器人动作,通过扩散模型预测当前帧点云,学习具有时序动态特性的3D视觉表示
- 技术细节:
- 使用标准3D编码器(如PointNet++、Point Transformer)编码历史点云为潜在表示
- 采用改进的Point-Voxel Diffusion网络,以潜在表示为条件,将高斯噪声逐步去噪为下一帧点云
- 在下游任务中,用预训练编码器替换原始视觉编码器,端到端微调策略网络
- 创新点:区别于传统对比学习和点云重建方法,FVP通过预测未来状态强制模型学习物理环境的动态变化规律
Card 05
数据集与资源
数据集与资源
- 仿真数据集:Adroit(灵巧手操作任务)、MetaWorld(50个多样化操作任务)
- 真实世界数据:50条专家演示轨迹,涵盖UR5单臂(夹爪/灵巧手)、AgileX双臂、TianGong人形机器人
- 跨域预训练数据:RoboMind数据集(多具身智能规范数据)
- 模型规模:FVP预训练框架兼容多种轻量级3D编码器,未明确说明参数量
- 训练资源:论文未明确说明具体GPU/TPU配置
Card 06
评估与结果
评估与结果
- 仿真环境:Adroit和MetaWorld基准测试
- 真实世界平台:UR5单臂(夹爪+16自由度Leap Hand灵巧手)、AgileX双臂机器人、TianGong人形机器人
- 评估指标:任务成功率(Success Rate)
- 关键结果:
- 仿真任务:FVP预训练DP3在域内数据上平均提升17%,跨域数据上提升24.7%
- 真实任务:相比DP3/RISE基线,FVP实现15%~55%的绝对性能提升
- VLA模型:RDT-1B结合FVP预训练3D编码器,在空间理解(14/20 vs 8/20)、知识迁移(16/20 vs 10/20)、长程任务(3/20 vs 0/20)上显著优于2D图像输入版本