返回列表 VLA / Vision-Language-Action 每日论文卡
STORM: Search-Guided Generative World Models for Robotic Manipulation
提出 STORM (Search-Guided Generative World Models),一种用于机器人操作的新型时空推理框架,统一了…

论文详情

STORM: Search-Guided Generative World Models for Robotic Manipulation

2025-12-20 · 原文 · 翻译 · 2512.18477

提出 STORM (Search-Guided Generative World Models),一种用于机器人操作的新型时空推理框架,统一了扩散式动作生成、条件视频预测和基于搜索的规划 解决现有视觉-语言-动作 (VLA) 模型依赖语言组件或抽象潜在动态进行推理的局限性,通过显式视觉推演实现更可解释、更鲁棒的长程规划

5 分钟读完 6 张阅读卡 Sun Yat-sen University, Guangzhou, China
一眼看懂 封面预览

提出 STORM (Search-Guided Generative World Models),一种用于机器人操作的新型时空推理框架,统一了…

  • 提出 STORM (Search-Guided Generative World Models),一种用于机器人操作的新型时空推理框架,统一了…
  • 解决现有视觉-语言-动作 (VLA) 模型依赖语言组件或抽象潜在动态进行推理的局限性,通过显式视觉推演实现更可解释、更鲁棒的长程规划
  • 提出 STORM 框架,集成扩散式 VLA、生成式视频世界模型和 MCTS 规划器,实现显式时空推理
Card 01 研究单位

研究单位

  • Sun Yat-sen University, Guangzhou, China
Card 02 论文概述

论文概述

  • 提出 STORM (Search-Guided Generative World Models),一种用于机器人操作的新型时空推理框架,统一了扩散式动作生成、条件视频预测和基于搜索的规划
  • 解决现有视觉-语言-动作 (VLA) 模型依赖语言组件或抽象潜在动态进行推理的局限性,通过显式视觉推演实现更可解释、更鲁棒的长程规划
Card 03 核心贡献

核心贡献

  • 提出 STORM 框架,集成扩散式 VLA、生成式视频世界模型和 MCTS 规划器,实现显式时空推理
  • 证明奖励增强的视频预测器作为高效生成世界模型,显著提升动作条件视觉推演的保真度和任务相关性
  • SimplerEnv 基准上达到 51.0% 平均成功率,超越 CogACT (47.9%) 等强基线
  • 展示 STORM 的故障恢复能力,通过重新规划逃离反应式策略陷入的重复错误循环
  • 奖励监督使 FVD 降低超过 75%,学习任务感知的因果动态结构
Card 04 方法描述

方法描述

  • 扩散式 VLA 策略 (π_vla):基于 CogACT-Base (7B),生成多样化动作候选,建模多模态动作分布
  • 生成式视频世界模型 (M_w):基于 iVideoGPT-medium,使用 VQ-VAE 编码和自回归 Transformer,通过混合损失(视频重建 + 奖励预测)进行微调
  • MCTS 规划:执行选择、扩展、评估、反向传播循环,使用 PUCT 算法平衡探索与利用,支持在线重新规划
  • 创新点:用显式视觉推演替代抽象潜在空间规划,VLA 作为黑盒提议策略实现模块化设计
Card 05 数据集与资源

数据集与资源

  • 数据集Bridge dataset 用于训练,SimplerEnv 用于评估
  • 模型规模:VLA 使用 CogACT-Base (7B 参数),视频预测器基于 iVideoGPT-medium
  • 训练资源2× NVIDIA A100 (80GB),约 120,000 步,批量大小 36,AdamW 优化器,学习率 5e-4
  • MCTS 参数N_sim = 8 次模拟,深度 D = 3,折扣因子 γ = 0.9,探索常数 c_puct = 1.0,候选动作数 K = 8
Card 06 评估与结果

评估与结果

  • 评估环境SimplerEnv 模拟器,WidowX 机械臂,4 项操作任务(Put Spoon on Towel、Put Carrot on Plate、Stack Green on Yellow Block、Put Eggplant in Basket)
  • 评估指标:任务成功率、FVDLPIPSPSNRSSIM
  • 关键结果

- 平均成功率 51.0%,超越 CogACT (47.9%)、Octo-Small (26.7%)、OpenVLA (4.2%)

- 奖励增强视频预测在 FVD 上比纯动作模型降低 75% 以上

- 案例研究显示 STORM 能从失败中恢复,而 CogACT 陷入重复循环