返回列表 VLA / Vision-Language-Action 每日论文卡

Sparse Imagination for Efficient Visual World Model Planning

论文详情

Sparse Imagination for Efficient Visual World Model Planning

2025-06-02 · 原文 · 翻译 · 2506.01392

提出了 稀疏想象 方法,通过在前向预测中减少处理的标记数量,提升视觉世界模型规划的计算效率。 旨在解决视觉世界模型(如基于DINO特征的模型)在规划时因处理大量视觉标记而导致二次方计算成本过高的问题。 核心目标是实现在大幅加速规划的同时,保持高控制保真度,使其适用于从简单测试时优化到复杂真实世界机器人任务的各种场景。

4 分钟读完 6 张阅读卡 首尔国立大学数据科学研究生院
一眼看懂 封面预览

提出了 稀疏想象 方法,通过在前向预测中减少处理的标记数量,提升视觉世界模型规划的计算效率。

  • 提出了 稀疏想象 方法,通过在前向预测中减少处理的标记数量,提升视觉世界模型规划的计算效率。
  • 旨在解决视觉世界模型(如基于DINO特征的模型)在规划时因处理大量视觉标记而导致二次方计算成本过高的问题。
  • 核心目标是实现在大幅加速规划的同时,保持高控制保真度,使其适用于从简单测试时优化到复杂真实世界机器人任务的各种场景。
Card 01 研究单位

研究单位

  • 首尔国立大学数据科学研究生院
  • 首尔国立大学电气与计算机工程系
Card 02 论文概述

论文概述

  • 提出了 稀疏想象 方法,通过在前向预测中减少处理的标记数量,提升视觉世界模型规划的计算效率。
  • 旨在解决视觉世界模型(如基于DINO特征的模型)在规划时因处理大量视觉标记而导致二次方计算成本过高的问题。
  • 核心目标是实现在大幅加速规划的同时,保持高控制保真度,使其适用于从简单测试时优化到复杂真实世界机器人任务的各种场景。
Card 03 核心贡献

核心贡献

  • 提出了稀疏想象这一简单有效的方法,通过在推理时使用随机patch特征丢弃,实现高效的视觉世界模型规划。
  • 证明了该方法是一项通用技术,适用于从简单的测试时轨迹优化到与最新VLA模型集成的复杂现实世界任务,在 LIBERO-10Meta-World 和真实机器人任务中实现了显著的规划加速。
  • 通过对比分析发现,简单的随机采样性能匹敌或优于复杂的标记选择方法,并揭示了其根本原因——静态重要性度量在动态规划中存在 “盲点” 问题,而随机采样的无偏覆盖是更稳健的策略。
Card 04 方法描述

方法描述

  • 世界模型由固定的预训练图像编码器(如 DINO)和基于Transformer的世界模型构成,后者预测未来的潜在标记。
  • 创新点在于训练阶段采用了 随机分组注意力策略,将每帧的视觉标记随机分成两组,并限制注意力只在组内进行,使模型能够处理任意标记子集。
  • 在规划阶段(MPC),实施随机标记丢弃。在每个规划步骤,根据用户设定的丢弃比例随机采样一个标记子集,仅在该稀疏子集上进行前向推演和优化。
Card 05 数据集与资源

数据集与资源

  • 使用了八个模拟环境:PointmazeWallPushTGranularRopeBlock PushingLIBERO-10Meta-World
  • 真实世界任务通过 LeRobot 平台(SO-101 机械臂)进行,包括 PickPlaceDrawer 任务。
  • 视觉特征提取基于预训练的 DINO 模型。
Card 06 评估与结果

评估与结果

  • 评估了三种规划设置:MPC-CEM开环CEM策略引导规划(与 SmolVLA 等VLA模型结合)。
  • 主要评估指标为 任务成功率规划时间/延迟
  • 实验结果表明,适度的标记丢弃(10-50%)在保持与 Full-Patch 基准相当的成功率的同时,可显著减少规划时间(例如在PushT任务中,50%丢弃率使规划时间减少52.6%)。
  • 在真实世界机器人任务中,50%标记丢弃率将成功率从60%提升至80%,并将规划延迟从19.1秒减少至10.4秒。
  • 对比实验表明,简单的 Random 采样策略在多个基准上取得了最佳或具有竞争力的平均成功率,优于LTRP、STAR、ATC等复杂的标记选择或合并方法。