返回列表 VLA / Vision-Language-Action 每日论文卡
DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion
提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划

论文详情

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

2026-03-27 · 原文 · 翻译 · 2603.26322

提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划 解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题 核心创新:多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测 仅需每任务 5 分钟的自监督数据即可训练,纯 RGB 输入(2.0GB 内存,10Hz)

5 分钟读完 6 张阅读卡 Skolkovo Institute of Science and Technology (Skolt…
一眼看懂 封面预览

提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划

  • 提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划
  • 解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
  • 核心创新:多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测
Card 01 研究单位

研究单位

  • Skolkovo Institute of Science and Technology (Skoltech)

- Intelligent Space Robotics Laboratory, Center for Digital Engineering

- 作者包括:Iana Zhura, Yara Mahmoud, Jeffrin Sam, Hung Khang Nguyen, Didar Seyidov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou

Card 02 论文概述

论文概述

  • 提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划
  • 解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
  • 核心创新:多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测
  • 仅需每任务 5 分钟的自监督数据即可训练,纯 RGB 输入(2.0GB 内存,10Hz)
Card 03 核心贡献

核心贡献

  • 上下文感知的跨任务扩散架构:单一统一扩散策略通过多尺度 FiLM 条件调节处理导航和预抓取任务
  • 轨迹对齐深度推理:仅沿生成的轨迹路点预测深度,实现高效的三维度量推理
  • 自适应注意力预测的目标学习:基于 AnyTraverse 的轻量级注意力预测器,支持自主目标选择和零样本目标指定
  • 跨任务知识迁移:共享模型权重实现任务间的知识转移,任务切换仅需调整上下文条件
Card 04 方法描述

方法描述

  • 网络架构:基于 UNet 的扩散策略,使用 DDPM 采样进行迭代去噪
  • 多尺度 FiLM 条件调节:在四个编码器尺度(64×64, 32×32, 16×16, 8×8)应用 FiLM
  • 上下文表示:任务模式(m∈{0,1})、深度尺度(meter/cm)、空间注意力(A∈R^64×64)
  • ViT 编码器:用于提取语义特征,预测可通行性图和任务特定的注意力图
  • 辅助损失:可通行性预测损失、注意力预测损失、深度预测损失
Card 05 数据集与资源

数据集与资源

  • 训练数据:20 分钟视频数据,50 个 epoch,batch size 32
  • 自监督数据:每任务仅需 5 分钟
  • 数据集生成:使用 AnyTraverse 生成可通行性和注意力图,ML-Depth-Pro 提供米级深度
  • 训练资源:单卡 RTX 4090,2 小时训练,6GB 内存
  • 推理资源:2GB 内存,10Hz 实时性能
  • 机器人平台:Unitree G1 人形机器人,配备 RGB 相机和 7-DOF 机械臂
Card 06 评估与结果

评估与结果

  • 探索导航:100% 避障成功率(NoMaD 为 93%),平均安全距离 2.98m(NoMaD 为 2.24m)
  • 目标导向导航:100% 自主目标成功率,0.29m 精度
  • 预抓取规划:70.6% 目标成功率,100% 避障,4.71cm 平均误差(导航为 29.68cm,精度提升 6 倍)
  • 零样本泛化:在未见过的测试场景中实现鲁棒性能,无需微调
  • 与 VLA 模型对比:GR00T 在新场景配置下完全失败,本方法通过显式几何推理实现有效泛化