返回列表 VLA / Vision-Language-Action 每日论文卡
Mirage2Matter: A Physically Grounded Gaussian World Model from Video
Mirage2Matter 是一个基于物理的 Gaussian 世界模型,能够从多视角视频生成高保真的具身智能训练数据,解决了现实世界交互数据…

论文详情

Mirage2Matter: A Physically Grounded Gaussian World Model from Video

2026-01-24 · 原文 · 翻译 · 2602.00096

Mirage2Matter 是一个基于物理的 Gaussian 世界模型,能够从多视角视频生成高保真的具身智能训练数据,解决了现实世界交互数据稀缺的问题 现有模拟平台存在显著的视觉和物理差距,需要专业硬件进行数据收集,限制了其规模化应用 该方法将 3D Gaussian Splatting (3DGS) 重建的真实感场景与物理模拟器结合,实现视觉-物理一致性,支持 VLA 模型的零样本 Sim2Real 迁移

7 分钟读完 6 张阅读卡 MBZUAI (Mohamed bin Zayed University of Artificial…
一眼看懂 封面预览

Mirage2Matter 是一个基于物理的 Gaussian 世界模型,能够从多视角视频生成高保真的具身智能训练数据,解决了现实世界交互数据…

  • Mirage2Matter 是一个基于物理的 Gaussian 世界模型,能够从多视角视频生成高保真的具身智能训练数据,解决了现实世界交互数据…
  • 现有模拟平台存在显著的视觉和物理差距,需要专业硬件进行数据收集,限制了其规模化应用
  • 该方法将 3D Gaussian Splatting (3DGS) 重建的真实感场景与物理模拟器结合,实现视觉-物理一致性,支持 VLA 模型…
Card 01 研究单位

研究单位

  • MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, UAE)
  • AI²Robotics (China)
  • The University of Sydney (Australia)
  • Carnegie Mellon University (USA)
  • The University of Melbourne (Australia)
Card 02 论文概述

论文概述

  • Mirage2Matter 是一个基于物理的 Gaussian 世界模型,能够从多视角视频生成高保真的具身智能训练数据,解决了现实世界交互数据稀缺的问题
  • 现有模拟平台存在显著的视觉和物理差距,需要专业硬件进行数据收集,限制了其规模化应用
  • 该方法将 3D Gaussian Splatting (3DGS) 重建的真实感场景与物理模拟器结合,实现视觉-物理一致性,支持 VLA 模型的零样本 Sim2Real 迁移
Card 03 核心贡献

核心贡献

  • 高保真世界表示:仅使用普通多视角视频重建目标环境和可操作物体的高保真视觉表示
  • 物理 grounded 机器人中心建模:利用生成模型高效生成碰撞就绪的几何表示,引入校准管道确保模拟与现实世界的尺度对齐
  • 实用且可扩展的具身学习数据生成:构建高效可扩展的世界模型支持大规模数据模拟,使 VLA 模型在各种操纵任务上实现强零样本泛化
Card 04 方法描述

方法描述

  • 3D Gaussian Splatting (3DGS):使用各向异性 3D Gaussian 基元作为照片级真实感表示,通过 rasterization 和 splatting 实现高效新视图渲染
  • 场景重建:使用 COLMAP 进行 SfM 重建,获取稀疏点云和相机位姿,训练场景 3DGS
  • 物体重建:使用 SAM2 进行物体分割,优化物体级 3DGS;使用 Tripo3D 生成水密 mesh 用于物理模拟
  • 跨域对齐

- 场景对齐:SfM → Genesis 框架,通过 scaled ICP 在校准板区域和机器人基座区域之间进行对齐

- 物体对齐:物体 3DGS ↔ Mesh,通过相似度变换和 ICP 精化对齐

  • 数据生成:交互式放置物体 → 合并为统一 3DGS 世界 → Genesis 物理模拟 → 运动规划 (IK + RRT) → 混合渲染 (Genesis 机器人 + 3DGS 背景)
Card 05 数据集与资源

数据集与资源

  • 数据集:自采集的多视角视频,包含香蕉、牛角面包等日常物体
  • 物理模拟器Genesis 物理引擎
  • 生成模型Tripo3D 用于 mesh 生成
  • VLA 模型PoSA-VLA (默认),也测试了 π₀.₅ 和 OpenVLA-OFT
  • 训练资源:NVIDIA A100 GPU (训练),NVIDIA RTX 4090 (推理)
  • 数据规模:每个任务和物体 300 条模拟演示轨迹,每个任务 50 条真实机器人演示
  • 机器人平台:AlphaBot 1s,7-DoF 机械臂,头部 RGB 相机
Card 06 评估与结果

评估与结果

  • 评估任务:Grasp (抓取)、Press Button (按按钮)、Push/Pull (推拉)
  • 基准对比:DISCOVERSE、RoboSimGS、Real-World (真实数据训练)
  • 主要指标:成功率 (Success Rate %)

关键实验结果

\|任务/方法 \|Real-World \|DISCOVERSE \|RoboSimGS \|Mirage2Matter \|

\|


--


---\|


--


----\|


--


----\|


--


---\|


--


--


--\|

\|抓取香蕉 \|96.7 \|60.0 \|76.7 \|80.0 \|

\|抓取牛角面包 \|90.0 \|66.7 \|76.7 \|86.7 \|

\|按按钮 \|96.7 \|- \|- \|93.3 \|

\|推拉物体 \|83.3 \|- \|- \|73.3 \|

  • 消融实验:使用 3DGS 物体表示 vs 网格表示,平均成功率从 78.4% 提升至 83.4%
  • 数据规模影响:50 条 → 53.4%,150 条 → 81.7%,300 条 → 83.4%