STORM: Search-Guided Generative World Models for Robotic Manipulation - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 STORM (Search-Guided Generative World Models)，一种用于机器人操作的新型时空推理框架，统一了…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 STORM (Search-Guided Generative World Models)，一种用于机器人操作的新型时空推理框架，统一了扩散式动作生成、条件视频预测和基于搜索的规划
解决现有视觉-语言-动作 (VLA) 模型依赖语言组件或抽象潜在动态进行推理的局限性，通过显式视觉推演实现更可解释、更鲁棒的长程规划

Card 03 核心贡献

Card 04 方法描述

扩散式 VLA 策略 (π_vla)：基于 CogACT-Base (7B)，生成多样化动作候选，建模多模态动作分布
生成式视频世界模型 (M_w)：基于 iVideoGPT-medium，使用 VQ-VAE 编码和自回归 Transformer，通过混合损失（视频重建 + 奖励预测）进行微调
MCTS 规划：执行选择、扩展、评估、反向传播循环，使用 PUCT 算法平衡探索与利用，支持在线重新规划
创新点：用显式视觉推演替代抽象潜在空间规划，VLA 作为黑盒提议策略实现模块化设计

Card 05 数据集与资源

数据集：Bridge dataset 用于训练，SimplerEnv 用于评估
模型规模：VLA 使用 CogACT-Base (7B 参数)，视频预测器基于 iVideoGPT-medium
训练资源：2× NVIDIA A100 (80GB)，约 120,000 步，批量大小 36，AdamW 优化器，学习率 5e-4
MCTS 参数：N_sim = 8 次模拟，深度 D = 3，折扣因子 γ = 0.9，探索常数 c_puct = 1.0，候选动作数 K = 8

Card 06 评估与结果

评估环境：SimplerEnv 模拟器，WidowX 机械臂，4 项操作任务（Put Spoon on Towel、Put Carrot on Plate、Stack Green on Yellow Block、Put Eggplant in Basket）
评估指标：任务成功率、FVD、LPIPS、PSNR、SSIM
关键结果：

- 平均成功率 51.0%，超越 CogACT (47.9%)、Octo-Small (26.7%)、OpenVLA (4.2%)

- 奖励增强视频预测在 FVD 上比纯动作模型降低 75% 以上

- 案例研究显示 STORM 能从失败中恢复，而 CogACT 陷入重复循环