提出一个统一的图像空间扩散策略，同时处理米级导航和厘米级预抓取运动规划

论文详情

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

2026-03-27 · 原文 · 翻译 · 2603.26322

提出一个统一的图像空间扩散策略，同时处理米级导航和厘米级预抓取运动规划解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题核心创新：多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测仅需每任务 5 分钟的自监督数据即可训练，纯 RGB 输入（2.0GB 内存，10Hz）

5 分钟读完 6 张阅读卡 Skolkovo Institute of Science and Technology (Skolt…

一眼看懂封面预览

提出一个统一的图像空间扩散策略，同时处理米级导航和厘米级预抓取运动规划

提出一个统一的图像空间扩散策略，同时处理米级导航和厘米级预抓取运动规划
解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
核心创新：多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测

Card 01 研究单位

研究单位

Skolkovo Institute of Science and Technology (Skoltech)

- Intelligent Space Robotics Laboratory, Center for Digital Engineering

- 作者包括：Iana Zhura, Yara Mahmoud, Jeffrin Sam, Hung Khang Nguyen, Didar Seyidov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou

Card 02 论文概述

论文概述

提出一个统一的图像空间扩散策略，同时处理米级导航和厘米级预抓取运动规划
解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
核心创新：多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测
仅需每任务 5 分钟的自监督数据即可训练，纯 RGB 输入（2.0GB 内存，10Hz）

Card 03 核心贡献

核心贡献

上下文感知的跨任务扩散架构：单一统一扩散策略通过多尺度 FiLM 条件调节处理导航和预抓取任务
轨迹对齐深度推理：仅沿生成的轨迹路点预测深度，实现高效的三维度量推理
自适应注意力预测的目标学习：基于 AnyTraverse 的轻量级注意力预测器，支持自主目标选择和零样本目标指定
跨任务知识迁移：共享模型权重实现任务间的知识转移，任务切换仅需调整上下文条件

Card 04 方法描述

方法描述

网络架构：基于 UNet 的扩散策略，使用 DDPM 采样进行迭代去噪
多尺度 FiLM 条件调节：在四个编码器尺度（64×64, 32×32, 16×16, 8×8）应用 FiLM
上下文表示：任务模式（m∈{0,1}）、深度尺度（meter/cm）、空间注意力（A∈R^64×64）
ViT 编码器：用于提取语义特征，预测可通行性图和任务特定的注意力图
辅助损失：可通行性预测损失、注意力预测损失、深度预测损失

Card 05 数据集与资源

数据集与资源

训练数据：20 分钟视频数据，50 个 epoch，batch size 32
自监督数据：每任务仅需 5 分钟
数据集生成：使用 AnyTraverse 生成可通行性和注意力图，ML-Depth-Pro 提供米级深度
训练资源：单卡 RTX 4090，2 小时训练，6GB 内存
推理资源：2GB 内存，10Hz 实时性能
机器人平台：Unitree G1 人形机器人，配备 RGB 相机和 7-DOF 机械臂

Card 06 评估与结果

评估与结果

探索导航：100% 避障成功率（NoMaD 为 93%），平均安全距离 2.98m（NoMaD 为 2.24m）
目标导向导航：100% 自主目标成功率，0.29m 精度
预抓取规划：70.6% 目标成功率，100% 避障，4.71cm 平均误差（导航为 29.68cm，精度提升 6 倍）
零样本泛化：在未见过的测试场景中实现鲁棒性能，无需微调
与 VLA 模型对比：GR00T 在新场景配置下完全失败，本方法通过显式几何推理实现有效泛化