一眼看懂
封面预览
提出 WorldGym,一个基于世界模型的策略评估环境,利用自回归、动作条件的视频生成模型作为真实世界环境的代理。
- 提出 WorldGym,一个基于世界模型的策略评估环境,利用自回归、动作条件的视频生成模型作为真实世界环境的代理。
- 通过在世界模型中进行蒙特卡洛展开,并使用视觉语言模型(VLM)提供奖励,实现对机器人控制策略的评估。
- 旨在解决真实世界测试成本高昂、手工模拟器需大量手动调整以提升真实性和通用性的问题。
Card 01
研究单位
研究单位
- 斯坦福大学
- 纽约大学
- Google DeepMind
Card 02
论文概述
论文概述
- 提出 WorldGym,一个基于世界模型的策略评估环境,利用自回归、动作条件的视频生成模型作为真实世界环境的代理。
- 通过在世界模型中进行蒙特卡洛展开,并使用视觉语言模型(VLM)提供奖励,实现对机器人控制策略的评估。
- 旨在解决真实世界测试成本高昂、手工模拟器需大量手动调整以提升真实性和通用性的问题。
Card 03
核心贡献
核心贡献
- 提出使用视频世界模型来评估跨不同机器人形态的机器人策略,并对其可行性进行了全面研究。
- 提出将扩散模型的预测视界长度与策略的动作块大小灵活对齐,以实现对多种策略的高效长时域展开。
- 展示了一个在来自多样化任务和环境的数据上学习的单一世界模型,能够产生与真实世界策略成功率高度相关的策略价值估计。
- 演示了在基于自回归视频生成的世界模型中,轻松测试机器人策略在分布外(OOD)任务和环境上的能力。
Card 04
方法描述
方法描述
- 训练一个基于潜在扩散Transformer的世界模型,并使用 Diffusion Forcing 技术实现自回归帧生成。
- 模型通过AdaLN-Zero调制将机器人动作向量作为条件注入,并使用无分类器引导来提高对动作输入的遵循度。
- 关键创新在于推理时能够灵活地将预测视界长度与策略的动作块大小对齐,从而高效生成视频,适应不同策略。
- 采用 GPT-4o 作为奖励模型,输入生成的视频序列和语言指令来判断任务是否成功。
Card 05
数据集与资源
数据集与资源
- 训练数据来自 Open-X Embodiment 数据集中的多个机器人数据集,如 Bridge V2 和 RT-1。
- 世界模型是一个609M参数的扩散Transformer,在 2xA100 80GB GPU上训练 300k步。
- 奖励模型使用 GPT-4o。
Card 06
评估与结果
评估与结果
- 在 OpenVLA Bridge 评估基准上,对 RT-1-X、Octo 和 OpenVLA 三个视觉-语言-动作(VLA)策略进行评估。
- 评估指标为任务成功率,结果显示WorldGym中的策略成功率与真实世界成功率呈现强相关性(皮尔逊相关系数 r=0.78)。
- 三种策略在WorldGym中的平均成功率与真实世界平均成功率仅相差 3.3%,且相对性能排名得以保持。
- 实验还表明,WorldGym能有效评估策略在分布外(OOD)图像和语言指令上的性能,揭示了现代机器人策略在形状区分和对抗性干扰方面的弱点。