一眼看懂
封面预览
提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
- 提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
- 解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
- 针对精细关节物体操作任务,生成具有验证物理状态的真实感训练数据
Card 01
研究单位
研究单位
- 论文未明确列出作者所属机构名称
Card 02
论文概述
论文概述
- 提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
- 解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
- 针对精细关节物体操作任务,生成具有验证物理状态的真实感训练数据
Card 03
核心贡献
核心贡献
- 使用单条静态扫描视频即可为同类别任意物体生成操作数据
- 确保合成数据具有精确的物理交互和高视觉真实感
- 支持对目标物体姿态的任意调整,极大扩展生成数据的配置多样性
- 生成的合成数据经证明可有效用于 VLA 训练,显著提升模型性能
- 实现类别级别的物体替换,无需依赖物理仿真器即可保持视觉真实感和物理合理性
Card 04
方法描述
方法描述
- 基于 3D Gaussian Splatting (3DGS) 进行场景重建和运动恢复
- 提出 AOMotion 方法,包含关键帧提取、接触点检测、关节物体建模和可动部件运动恢复四个子模块
- 设计两阶段优化方法实现物理交互自适应,确保新物体与原始机械臂轨迹的交互一致性
- 采用 DiffusionLight 提取真实环境光照并烘焙至物体材质,结合高斯修复处理物体替换造成的空洞
- 支持姿态泛化,通过线性插值和球面线性插值生成新轨迹
Card 05
数据集与资源
数据集与资源
- 使用 Universal Robot UR5e 配备 2F85 夹爪 收集真实演示数据
- 替换物体资产来自 ArtVIP 数据集,包括微波炉、工具箱、电脑(旋转关节)和抽屉、柜子(移动关节)
- 在 NVIDIA RTX4090 GPU 上进行模型训练
- 使用 IsaacSim 作为仿真平台
- 微调模型包括 π₀.₅ 和 OpenVLA,采用 LoRA 微调策略
Card 06
评估与结果
评估与结果
- 仿真回放评估:在 IsaacSim 中重放生成的机械臂轨迹和物体姿态,验证物理交互真实性,平均成功率达 98%
- VLA 训练评估:使用 50 条和 150 条 AOMGen 生成数据微调 π₀.₅ 和 OpenVLA,成功率分别从 0% 提升至 88.66% 和 81.34%
- 尺度泛化评估:在 0.6-0.9 尺度范围内测试,π₀.₅ 在抽屉任务上保持 80-90% 成功率
- 未见物体泛化:使用混合数据训练的模型在未见物体上成功率达 65%,显著优于单数据训练的 15%