返回列表 VLA / Vision-Language-Action 每日论文卡
World-Gymnast: Training Robots with Reinforcement Learning in a World Model
提出 World-Gymnast 框架,在学习到的世界模型(WorldGym)中通过强化学习微调 VLA(视觉-语言-动作)策略,解决机器人从…

论文详情

World-Gymnast: Training Robots with Reinforcement Learning in a World Model

2026-02-02 · 原文 · 翻译 · 2602.02454

提出 World-Gymnast 框架,在学习到的世界模型(WorldGym)中通过强化学习微调 VLA(视觉-语言-动作)策略,解决机器人从物理交互中学习成本过高的问题 旨在克服两种替代方案的局限性:监督微调(SFT)受限于专家演示数据量,软件模拟器存在 sim-to-real 差距 核心问题:能否在世界模型中训练策略,比监督学习或传统模拟器获得更好的真实机器人性能

6 分钟读完 6 张阅读卡 作者 affiliations 在 HTML 正文中未明确显示具体机构名称
一眼看懂 封面预览

提出 World-Gymnast 框架,在学习到的世界模型(WorldGym)中通过强化学习微调 VLA(视觉-语言-动作)策略,解决机器人从…

  • 提出 World-Gymnast 框架,在学习到的世界模型(WorldGym)中通过强化学习微调 VLA(视觉-语言-动作)策略,解决机器人从…
  • 旨在克服两种替代方案的局限性:监督微调(SFT)受限于专家演示数据量,软件模拟器存在 sim-to-real 差距
  • 核心问题:能否在世界模型中训练策略,比监督学习或传统模拟器获得更好的真实机器人性能
Card 01 研究单位

研究单位

  • 作者 affiliations 在 HTML 正文中未明确显示具体机构名称
  • 论文来自 arXiv (arXiv:2602.02454)
Card 02 论文概述

论文概述

  • 提出 World-Gymnast 框架,在学习到的世界模型(WorldGym)中通过强化学习微调 VLA(视觉-语言-动作)策略,解决机器人从物理交互中学习成本过高的问题
  • 旨在克服两种替代方案的局限性:监督微调(SFT)受限于专家演示数据量,软件模拟器存在 sim-to-real 差距
  • 核心问题:能否在世界模型中训练策略,比监督学习或传统模拟器获得更好的真实机器人性能
Card 03 核心贡献

核心贡献

  • 提出在视频世界模型中进行 RL 训练的方法,使用动作条件视频生成模型(WorldGym)作为环境,VLM 作为奖励模型
  • 在 Bridge 机器人平台上,World-Gymnast 性能超越 SFT 最高达 18 倍,超越软件模拟器(SIMPLER)最高达 2 倍
  • 展示了世界模型 RL 的独特能力:从任意帧训练、新颖语言指令泛化、测试时训练、迭代式世界模型与策略改进
  • 利用图像编辑、语言增强等技术扩展训练数据,提高策略在干扰物和分布外场景下的鲁棒性
Card 04 方法描述

方法描述

  • 基础模型:使用 OpenVLA-OFT(基于 OpenVLA 7B 在 BridgeData V2 上微调)作为初始策略
  • 世界模型:采用 WorldGym(600M 参数变体),基于 Open X-Embodiment 数据预训练的动作条件视频生成模型
  • 奖励模型:使用 GPT-4o VLM 对轨迹进行二进制任务完成奖励评估
  • RL 算法:采用 GRPO(Group Relative Policy Optimization),通过组内得分归一化估计优势函数
  • 训练技巧:丢弃 KL 惩罚项、动态采样过滤无奖励方差的组、高温度采样、较高 clip ratio
Card 05 数据集与资源

数据集与资源

  • 评估平台AutoEval 真实机器人评估框架
  • 任务集:基于 BridgeData V2 的 17 个任务,涵盖视觉、运动、物理和语义变化
  • 训练数据:可通过图像编辑(Nano Banana)、语言增强、任务扩展进行数据缩放
  • 训练资源:4 张 NVIDIA H200 GPU(每张 140GB),全参数微调 1-2 天
  • 超参数:学习率 5×10⁻⁶,组大小 8,批次大小 20,动作分块长度 5,温度 1.6
Card 06 评估与结果

评估与结果

  • 评估环境:WorldGym(世界模型)+ AutoEval(真实机器人)
  • 主要指标:任务成功率(Success Rate)
  • 关键结果

- 与 SIMPLER(软件模拟器)对比:World-Gymnast 在 4 项任务中 3 项获胜(Open drawer: 58% vs 34%;Put eggplant to blue sink: 72% vs 32%;Put eggplant to yellow basket: 78% vs 40%)

- 与 SFT 对比:在 "Put eggplant into blue sink" 任务提升 18 倍(72% vs 4%),在 "Put eggplant into yellow basket" 提升近 10 倍(78% vs 8%)

- 干扰物训练(World-Gymnast-Distract)达到 78% 成功率

- 语言增强训练(World-Gymnast-Language)达到 81% 成功率

- 测试时训练使 "Close drawer" 任务从 62% 提升至 100%

- 迭代式世界模型更新后,"Close drawer" 达到 95% 成功率