Mirage2Matter: A Physically Grounded Gaussian World Model from Video - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

Mirage2Matter 是一个基于物理的 Gaussian 世界模型，能够从多视角视频生成高保真的具身智能训练数据，解决了现实世界交互数据…

Card 01 研究单位

研究单位

Card 02 论文概述

Mirage2Matter 是一个基于物理的 Gaussian 世界模型，能够从多视角视频生成高保真的具身智能训练数据，解决了现实世界交互数据稀缺的问题
现有模拟平台存在显著的视觉和物理差距，需要专业硬件进行数据收集，限制了其规模化应用
该方法将 3D Gaussian Splatting (3DGS) 重建的真实感场景与物理模拟器结合，实现视觉-物理一致性，支持 VLA 模型的零样本 Sim2Real 迁移

Card 03 核心贡献

Card 04 方法描述

3D Gaussian Splatting (3DGS)：使用各向异性 3D Gaussian 基元作为照片级真实感表示，通过 rasterization 和 splatting 实现高效新视图渲染
场景重建：使用 COLMAP 进行 SfM 重建，获取稀疏点云和相机位姿，训练场景 3DGS
物体重建：使用 SAM2 进行物体分割，优化物体级 3DGS；使用 Tripo3D 生成水密 mesh 用于物理模拟
跨域对齐：

- 场景对齐：SfM → Genesis 框架，通过 scaled ICP 在校准板区域和机器人基座区域之间进行对齐

- 物体对齐：物体 3DGS ↔ Mesh，通过相似度变换和 ICP 精化对齐

数据生成：交互式放置物体 → 合并为统一 3DGS 世界 → Genesis 物理模拟 → 运动规划 (IK + RRT) → 混合渲染 (Genesis 机器人 + 3DGS 背景)

Card 05 数据集与资源

Card 06 评估与结果

---\|

----\|

---\|

--\|

\|抓取香蕉 \|96.7 \|60.0 \|76.7 \|80.0 \|

\|抓取牛角面包 \|90.0 \|66.7 \|76.7 \|86.7 \|

\|按按钮 \|96.7 \|- \|- \|93.3 \|

\|推拉物体 \|83.3 \|- \|- \|73.3 \|