提出 AOMGen 框架，用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据

论文详情

AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation

2025-12-20 · 原文 · 翻译 · 2512.18396

提出 AOMGen 框架，用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题针对精细关节物体操作任务，生成具有验证物理状态的真实感训练数据

4 分钟读完 6 张阅读卡论文未明确列出作者所属机构名称

一眼看懂封面预览

提出 AOMGen 框架，用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据

提出 AOMGen 框架，用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
针对精细关节物体操作任务，生成具有验证物理状态的真实感训练数据

Card 01 研究单位

研究单位

论文未明确列出作者所属机构名称

Card 02 论文概述

论文概述

提出 AOMGen 框架，用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
针对精细关节物体操作任务，生成具有验证物理状态的真实感训练数据

Card 03 核心贡献

核心贡献

使用单条静态扫描视频即可为同类别任意物体生成操作数据
确保合成数据具有精确的物理交互和高视觉真实感
支持对目标物体姿态的任意调整，极大扩展生成数据的配置多样性
生成的合成数据经证明可有效用于 VLA 训练，显著提升模型性能
实现类别级别的物体替换，无需依赖物理仿真器即可保持视觉真实感和物理合理性

Card 04 方法描述

方法描述

基于 3D Gaussian Splatting (3DGS) 进行场景重建和运动恢复
提出 AOMotion 方法，包含关键帧提取、接触点检测、关节物体建模和可动部件运动恢复四个子模块
设计两阶段优化方法实现物理交互自适应，确保新物体与原始机械臂轨迹的交互一致性
采用 DiffusionLight 提取真实环境光照并烘焙至物体材质，结合高斯修复处理物体替换造成的空洞
支持姿态泛化，通过线性插值和球面线性插值生成新轨迹

Card 05 数据集与资源

数据集与资源

使用 Universal Robot UR5e 配备 2F85 夹爪 收集真实演示数据
替换物体资产来自 ArtVIP 数据集，包括微波炉、工具箱、电脑（旋转关节）和抽屉、柜子（移动关节）
在 NVIDIA RTX4090 GPU 上进行模型训练
使用 IsaacSim 作为仿真平台
微调模型包括 π₀.₅ 和 OpenVLA，采用 LoRA 微调策略

Card 06 评估与结果

评估与结果

仿真回放评估：在 IsaacSim 中重放生成的机械臂轨迹和物体姿态，验证物理交互真实性，平均成功率达 98%
VLA 训练评估：使用 50 条和 150 条 AOMGen 生成数据微调 π₀.₅ 和 OpenVLA，成功率分别从 0% 提升至 88.66% 和 81.34%
尺度泛化评估：在 0.6-0.9 尺度范围内测试，π₀.₅ 在抽屉任务上保持 80-90% 成功率
未见物体泛化：使用混合数据训练的模型在未见物体上成功率达 65%，显著优于单数据训练的 15%