I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing

一眼看懂封面预览

提出 I2E (Image-to-Environment) 范式，将图像编辑重新定义为在结构化环境中的交互过程，解决现有端到端像素重绘方法的局…

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

- 实例解缠与补全：使用 MLLM 进行语义推理，结合 SAM 2 等分割框架生成高精度掩码，通过生成式填充恢复被遮挡区域，输出完整 RGBA 层

- 物理层构建：提出 DAG 空间约束传播算法，结合硬约束（像素级遮挡矩阵）和软约束（单目深度估计）推断全局堆叠顺序

- 物理感知 CoT 推理：在显式物理约束下（如重力、支撑规则）进行思维链推理

- 动作执行：包括 REMOVE、MOVE、FALL、RESIZE、EDIT、RETOUCH、INSERT 等原子操作

- 多轮增量细化：通过动作累积支持增量编辑，抑制重复像素级重建的累积误差

Card 05 数据集与资源

数据集：I2E-Bench（200 张图像）、MagicBrush、EmuEdit
基础模型：SAM 2、Flux、Qwen3-VL (MLLM)
评估指标：LPIPS-U（未编辑区域感知相似度）、DINO-ViT（语义一致性）、SA（空间准确性）、CSR（约束满足率）、PC（物理一致性）、IC（指令遵从性）、MS（多步得分）

Card 06 评估与结果

I2E-Bench 定量结果：MS 达到 0.8074，比第二名（0.5483）提升约 0.26；CSR 达 0.87，PC 达 0.921，IC 达 0.8645，全面领先
MagicBrush：LPIPS-U 最佳（0.0446），DINO 最佳（0.9581），SA 最佳（0.7120），CSR 完美（1.0000），PC 最佳（0.8668）
EmuEdit：CSR 完美（1.0000），PC 最佳（0.8952），IC 最佳（0.8107）
消融实验：移除各模块均导致性能显著下降，验证了背景重建、前景重建、DAG 约束传播、物理推理、动作推理的必要性