一眼看懂
封面预览
提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划
- 提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划
- 解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
- 核心创新:多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测
Card 01
研究单位
研究单位
- Skolkovo Institute of Science and Technology (Skoltech)
- Intelligent Space Robotics Laboratory, Center for Digital Engineering
- 作者包括:Iana Zhura, Yara Mahmoud, Jeffrin Sam, Hung Khang Nguyen, Didar Seyidov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou
Card 02
论文概述
论文概述
- 提出一个统一的图像空间扩散策略,同时处理米级导航和厘米级预抓取运动规划
- 解决了现有 VLA 模型的高计算成本、大规模训练数据需求和零样本泛化失败问题
- 核心创新:多尺度 FiLM 条件调节、轨迹对齐深度预测、自监督注意力预测
- 仅需每任务 5 分钟的自监督数据即可训练,纯 RGB 输入(2.0GB 内存,10Hz)
Card 03
核心贡献
核心贡献
- 上下文感知的跨任务扩散架构:单一统一扩散策略通过多尺度 FiLM 条件调节处理导航和预抓取任务
- 轨迹对齐深度推理:仅沿生成的轨迹路点预测深度,实现高效的三维度量推理
- 自适应注意力预测的目标学习:基于 AnyTraverse 的轻量级注意力预测器,支持自主目标选择和零样本目标指定
- 跨任务知识迁移:共享模型权重实现任务间的知识转移,任务切换仅需调整上下文条件
Card 04
方法描述
方法描述
- 网络架构:基于 UNet 的扩散策略,使用 DDPM 采样进行迭代去噪
- 多尺度 FiLM 条件调节:在四个编码器尺度(64×64, 32×32, 16×16, 8×8)应用 FiLM
- 上下文表示:任务模式(m∈{0,1})、深度尺度(meter/cm)、空间注意力(A∈R^64×64)
- ViT 编码器:用于提取语义特征,预测可通行性图和任务特定的注意力图
- 辅助损失:可通行性预测损失、注意力预测损失、深度预测损失
Card 05
数据集与资源
数据集与资源
- 训练数据:20 分钟视频数据,50 个 epoch,batch size 32
- 自监督数据:每任务仅需 5 分钟
- 数据集生成:使用 AnyTraverse 生成可通行性和注意力图,ML-Depth-Pro 提供米级深度
- 训练资源:单卡 RTX 4090,2 小时训练,6GB 内存
- 推理资源:2GB 内存,10Hz 实时性能
- 机器人平台:Unitree G1 人形机器人,配备 RGB 相机和 7-DOF 机械臂
Card 06
评估与结果
评估与结果
- 探索导航:100% 避障成功率(NoMaD 为 93%),平均安全距离 2.98m(NoMaD 为 2.24m)
- 目标导向导航:100% 自主目标成功率,0.29m 精度
- 预抓取规划:70.6% 目标成功率,100% 避障,4.71cm 平均误差(导航为 29.68cm,精度提升 6 倍)
- 零样本泛化:在未见过的测试场景中实现鲁棒性能,无需微调
- 与 VLA 模型对比:GR00T 在新场景配置下完全失败,本方法通过显式几何推理实现有效泛化