返回列表 VLA / Vision-Language-Action 每日论文卡
AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation
提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据

论文详情

AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation

2025-12-20 · 原文 · 翻译 · 2512.18396

提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据 解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题 针对精细关节物体操作任务,生成具有验证物理状态的真实感训练数据

4 分钟读完 6 张阅读卡 论文未明确列出作者所属机构名称
一眼看懂 封面预览

提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据

  • 提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
  • 解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
  • 针对精细关节物体操作任务,生成具有验证物理状态的真实感训练数据
Card 01 研究单位

研究单位

  • 论文未明确列出作者所属机构名称
Card 02 论文概述

论文概述

  • 提出 AOMGen 框架,用于从单条真实扫描和演示生成可扩展的关节物体操作演示数据
  • 解决 Vision-Language-Action (VLA) 模型训练所需的大规模高质量真实演示数据收集成本高、劳动密集的问题
  • 针对精细关节物体操作任务,生成具有验证物理状态的真实感训练数据
Card 03 核心贡献

核心贡献

  • 使用单条静态扫描视频即可为同类别任意物体生成操作数据
  • 确保合成数据具有精确的物理交互和高视觉真实感
  • 支持对目标物体姿态的任意调整,极大扩展生成数据的配置多样性
  • 生成的合成数据经证明可有效用于 VLA 训练,显著提升模型性能
  • 实现类别级别的物体替换,无需依赖物理仿真器即可保持视觉真实感和物理合理性
Card 04 方法描述

方法描述

  • 基于 3D Gaussian Splatting (3DGS) 进行场景重建和运动恢复
  • 提出 AOMotion 方法,包含关键帧提取、接触点检测、关节物体建模和可动部件运动恢复四个子模块
  • 设计两阶段优化方法实现物理交互自适应,确保新物体与原始机械臂轨迹的交互一致性
  • 采用 DiffusionLight 提取真实环境光照并烘焙至物体材质,结合高斯修复处理物体替换造成的空洞
  • 支持姿态泛化,通过线性插值和球面线性插值生成新轨迹
Card 05 数据集与资源

数据集与资源

  • 使用 Universal Robot UR5e 配备 2F85 夹爪 收集真实演示数据
  • 替换物体资产来自 ArtVIP 数据集,包括微波炉、工具箱、电脑(旋转关节)和抽屉、柜子(移动关节)
  • NVIDIA RTX4090 GPU 上进行模型训练
  • 使用 IsaacSim 作为仿真平台
  • 微调模型包括 π₀.₅OpenVLA,采用 LoRA 微调策略
Card 06 评估与结果

评估与结果

  • 仿真回放评估:在 IsaacSim 中重放生成的机械臂轨迹和物体姿态,验证物理交互真实性,平均成功率达 98%
  • VLA 训练评估:使用 50 条和 150 条 AOMGen 生成数据微调 π₀.₅OpenVLA,成功率分别从 0% 提升至 88.66%81.34%
  • 尺度泛化评估:在 0.6-0.9 尺度范围内测试,π₀.₅ 在抽屉任务上保持 80-90% 成功率
  • 未见物体泛化:使用混合数据训练的模型在未见物体上成功率达 65%,显著优于单数据训练的 15%