一眼看懂
封面预览
提出 I2E (Image-to-Environment) 范式,将图像编辑重新定义为在结构化环境中的交互过程,解决现有端到端像素重绘方法的局…
- 提出 I2E (Image-to-Environment) 范式,将图像编辑重新定义为在结构化环境中的交互过程,解决现有端到端像素重绘方法的局…
- 针对三个核心问题:指令崩溃(复杂指令只能执行部分子目标)、全局纠缠(非目标区域被意外修改)、缺乏对象级控制
- 核心思路:将图像从无结构的像素数组转换为可操作的环境表示,通过 VLA 代理执行基于物理推理的原子动作而非全局像素重采样
Card 01
研究单位
研究单位
- 华中科技大学 (Huazhong University of Science and Technology)
- 清华大学 (Tsinghua University)
- 上海人工智能实验室 (Shanghai AI Laboratory)
Card 02
论文概述
论文概述
- 提出 I2E (Image-to-Environment) 范式,将图像编辑重新定义为在结构化环境中的交互过程,解决现有端到端像素重绘方法的局限性
- 针对三个核心问题:指令崩溃(复杂指令只能执行部分子目标)、全局纠缠(非目标区域被意外修改)、缺乏对象级控制
- 核心思路:将图像从无结构的像素数组转换为可操作的环境表示,通过 VLA 代理执行基于物理推理的原子动作而非全局像素重采样
Card 03
核心贡献
核心贡献
- 提出 "分解-然后行动" (Decompose-then-Action) 新范式,将图像编辑视为结构化环境中的交互过程
- 设计 Decomposer 模块:将无结构图像转换为离散的、可操作的对象层,包含实例解缠与补全、物理层构建(DAG 空间约束传播算法)
- 设计 VLA Editor:基于物理感知的思维链推理(CoT),将复杂指令解析为原子动作序列,支持多轮增量细化
- 构建 I2E-Bench 基准测试:包含 200 张图像,每张配以 5-10 个编辑指令,专注于多实例空间推理和高精度编辑
Card 04
方法描述
方法描述
- 环境构建阶段 (Decomposer):
- 实例解缠与补全:使用 MLLM 进行语义推理,结合 SAM 2 等分割框架生成高精度掩码,通过生成式填充恢复被遮挡区域,输出完整 RGBA 层
- 物理层构建:提出 DAG 空间约束传播算法,结合硬约束(像素级遮挡矩阵)和软约束(单目深度估计)推断全局堆叠顺序
- 代理交互阶段 (VLA Editor):
- 物理感知 CoT 推理:在显式物理约束下(如重力、支撑规则)进行思维链推理
- 动作执行:包括 REMOVE、MOVE、FALL、RESIZE、EDIT、RETOUCH、INSERT 等原子操作
- 多轮增量细化:通过动作累积支持增量编辑,抑制重复像素级重建的累积误差
Card 05
数据集与资源
数据集与资源
- 数据集:I2E-Bench(200 张图像)、MagicBrush、EmuEdit
- 基础模型:SAM 2、Flux、Qwen3-VL (MLLM)
- 评估指标:LPIPS-U(未编辑区域感知相似度)、DINO-ViT(语义一致性)、SA(空间准确性)、CSR(约束满足率)、PC(物理一致性)、IC(指令遵从性)、MS(多步得分)
Card 06
评估与结果
评估与结果
- I2E-Bench 定量结果:MS 达到 0.8074,比第二名(0.5483)提升约 0.26;CSR 达 0.87,PC 达 0.921,IC 达 0.8645,全面领先
- MagicBrush:LPIPS-U 最佳(0.0446),DINO 最佳(0.9581),SA 最佳(0.7120),CSR 完美(1.0000),PC 最佳(0.8668)
- EmuEdit:CSR 完美(1.0000),PC 最佳(0.8952),IC 最佳(0.8107)
- 消融实验:移除各模块均导致性能显著下降,验证了背景重建、前景重建、DAG 约束传播、物理推理、动作推理的必要性