WorldGym: World Model as An Environment for Policy Evaluation

论文详情

WorldGym: World Model as An Environment for Policy Evaluation

2025-05-31 · 原文 · 翻译 · 2506.00613

提出 WorldGym，一个基于世界模型的策略评估环境，利用自回归、动作条件的视频生成模型作为真实世界环境的代理。通过在世界模型中进行蒙特卡洛展开，并使用视觉语言模型（VLM）提供奖励，实现对机器人控制策略的评估。旨在解决真实世界测试成本高昂、手工模拟器需大量手动调整以提升真实性和通用性的问题。

4 分钟读完 6 张阅读卡斯坦福大学

一眼看懂封面预览

提出 WorldGym，一个基于世界模型的策略评估环境，利用自回归、动作条件的视频生成模型作为真实世界环境的代理。

提出 WorldGym，一个基于世界模型的策略评估环境，利用自回归、动作条件的视频生成模型作为真实世界环境的代理。
通过在世界模型中进行蒙特卡洛展开，并使用视觉语言模型（VLM）提供奖励，实现对机器人控制策略的评估。
旨在解决真实世界测试成本高昂、手工模拟器需大量手动调整以提升真实性和通用性的问题。

Card 01 研究单位

研究单位

斯坦福大学
纽约大学
Google DeepMind

Card 02 论文概述

论文概述

提出 WorldGym，一个基于世界模型的策略评估环境，利用自回归、动作条件的视频生成模型作为真实世界环境的代理。
通过在世界模型中进行蒙特卡洛展开，并使用视觉语言模型（VLM）提供奖励，实现对机器人控制策略的评估。
旨在解决真实世界测试成本高昂、手工模拟器需大量手动调整以提升真实性和通用性的问题。

Card 03 核心贡献

核心贡献

提出使用视频世界模型来评估跨不同机器人形态的机器人策略，并对其可行性进行了全面研究。
提出将扩散模型的预测视界长度与策略的动作块大小灵活对齐，以实现对多种策略的高效长时域展开。
展示了一个在来自多样化任务和环境的数据上学习的单一世界模型，能够产生与真实世界策略成功率高度相关的策略价值估计。
演示了在基于自回归视频生成的世界模型中，轻松测试机器人策略在分布外（OOD）任务和环境上的能力。

Card 04 方法描述

方法描述

训练一个基于潜在扩散Transformer的世界模型，并使用 Diffusion Forcing 技术实现自回归帧生成。
模型通过AdaLN-Zero调制将机器人动作向量作为条件注入，并使用无分类器引导来提高对动作输入的遵循度。
关键创新在于推理时能够灵活地将预测视界长度与策略的动作块大小对齐，从而高效生成视频，适应不同策略。
采用 GPT-4o 作为奖励模型，输入生成的视频序列和语言指令来判断任务是否成功。

Card 05 数据集与资源

数据集与资源

训练数据来自 Open-X Embodiment 数据集中的多个机器人数据集，如 Bridge V2 和 RT-1。
世界模型是一个609M参数的扩散Transformer，在 2xA100 80GB GPU上训练 300k步。
奖励模型使用 GPT-4o。

Card 06 评估与结果

评估与结果

在 OpenVLA Bridge 评估基准上，对 RT-1-X、Octo 和 OpenVLA 三个视觉-语言-动作（VLA）策略进行评估。
评估指标为任务成功率，结果显示WorldGym中的策略成功率与真实世界成功率呈现强相关性（皮尔逊相关系数 r=0.78）。
三种策略在WorldGym中的平均成功率与真实世界平均成功率仅相差 3.3%，且相对性能排名得以保持。
实验还表明，WorldGym能有效评估策略在分布外（OOD）图像和语言指令上的性能，揭示了现代机器人策略在形状区分和对抗性干扰方面的弱点。