4D Visual Pre-training for Robot Learning

论文详情

4D Visual Pre-training for Robot Learning

2025-08-24 · 原文 · 翻译 · 2508.17230

提出 FVP（4D Visual Pre-training），一种用于机器人学习的4D视觉预训练框架，通过预测下一帧点云来学习3D视觉表示解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题，利用扩散模型在点云序列上进行自监督预训练旨在为3D模仿学习方法提供通用的预训练模块，提升机器人操作任务的性能和泛化能力

5 分钟读完 6 张阅读卡北京大学（Peking University）

一眼看懂封面预览

提出 FVP（4D Visual Pre-training），一种用于机器人学习的4D视觉预训练框架，通过预测下一帧点云来学习3D视觉表示

提出 FVP（4D Visual Pre-training），一种用于机器人学习的4D视觉预训练框架，通过预测下一帧点云来学习3D视觉表示
解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题，利用扩散模型在点云序列上进行自监督预训练
旨在为3D模仿学习方法提供通用的预训练模块，提升机器人操作任务的性能和泛化能力

Card 01 研究单位

研究单位

北京大学（Peking University）
清华大学（Tsinghua University）
上海期智研究院（Shanghai Qizhi Institute）
中国科学院自动化研究所（CASIA）
上海人工智能实验室（Shanghai AI Lab）

Card 02 论文概述

论文概述

提出 FVP（4D Visual Pre-training），一种用于机器人学习的4D视觉预训练框架，通过预测下一帧点云来学习3D视觉表示
解决现有机器人视觉预训练主要依赖2D图像、忽视世界3D本质的问题，利用扩散模型在点云序列上进行自监督预训练
旨在为3D模仿学习方法提供通用的预训练模块，提升机器人操作任务的性能和泛化能力

Card 03 核心贡献

核心贡献

提出首个通用的4D视觉预训练框架FVP，将预训练目标定义为下一帧点云预测问题
采用条件扩散模型建模点云预测，结合历史帧点云和机器人动作信息学习动态视觉表示
在12个真实世界操作任务上，FVP预训练的DP3平均成功率提升28%，达到模仿学习方法的最优性能
FVP可迁移至多种3D编码器（PointNet++、Point Transformer、DP3 Encoder等）和多种机器人平台（单臂、双臂、人形机器人）
成功将FVP应用于大规模视觉-语言-动作模型RDT-1B，显著提升其空间理解、任务泛化和长程任务执行能力

Card 04 方法描述

方法描述

核心思想：利用历史帧点云和机器人动作，通过扩散模型预测当前帧点云，学习具有时序动态特性的3D视觉表示
技术细节：

- 使用标准3D编码器（如PointNet++、Point Transformer）编码历史点云为潜在表示

- 采用改进的Point-Voxel Diffusion网络，以潜在表示为条件，将高斯噪声逐步去噪为下一帧点云

- 在下游任务中，用预训练编码器替换原始视觉编码器，端到端微调策略网络

创新点：区别于传统对比学习和点云重建方法，FVP通过预测未来状态强制模型学习物理环境的动态变化规律

Card 05 数据集与资源

数据集与资源

仿真数据集：Adroit（灵巧手操作任务）、MetaWorld（50个多样化操作任务）
真实世界数据：50条专家演示轨迹，涵盖UR5单臂（夹爪/灵巧手）、AgileX双臂、TianGong人形机器人
跨域预训练数据：RoboMind数据集（多具身智能规范数据）
模型规模：FVP预训练框架兼容多种轻量级3D编码器，未明确说明参数量
训练资源：论文未明确说明具体GPU/TPU配置

Card 06 评估与结果

评估与结果

仿真环境：Adroit和MetaWorld基准测试
真实世界平台：UR5单臂（夹爪+16自由度Leap Hand灵巧手）、AgileX双臂机器人、TianGong人形机器人
评估指标：任务成功率（Success Rate）
关键结果：

- 仿真任务：FVP预训练DP3在域内数据上平均提升17%，跨域数据上提升24.7%

- 真实任务：相比DP3/RISE基线，FVP实现15%~55%的绝对性能提升

- VLA模型：RDT-1B结合FVP预训练3D编码器，在空间理解（14/20 vs 8/20）、知识迁移（16/20 vs 10/20）、长程任务（3/20 vs 0/20）上显著优于2D图像输入版本