论文提出了 World-VLA-Loop 框架，旨在解决现有视频世界模型在机器人操作中存在的动作跟随精度差和奖励信号不可靠的问题。

论文详情

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

2026-02-06 · 原文 · 翻译 · 2602.06508

论文提出了 World-VLA-Loop 框架，旨在解决现有视频世界模型在机器人操作中存在的动作跟随精度差和奖励信号不可靠的问题。框架通过建立世界模型与 VLA（Vision-Language-Action）策略之间的闭环协同进化机制，使两者能够相互促进与优化。论文引入了包含成功与近成功轨迹的 SANS 数据集，用于训练具有更高保真度的世界模型，并支持在虚拟环境中对VLA策略进行高效的强化学习后训练。

4 分钟读完 6 张阅读卡论文作者来自 Show Lab 研究组。

一眼看懂封面预览

论文提出了 World-VLA-Loop 框架，旨在解决现有视频世界模型在机器人操作中存在的动作跟随精度差和奖励信号不可靠的问题。

论文提出了 World-VLA-Loop 框架，旨在解决现有视频世界模型在机器人操作中存在的动作跟随精度差和奖励信号不可靠的问题。
框架通过建立世界模型与 VLA（Vision-Language-Action）策略之间的闭环协同进化机制，使两者能够相互促进与优化。
论文引入了包含成功与近成功轨迹的 SANS 数据集，用于训练具有更高保真度的世界模型，并支持在虚拟环境中对VLA策略进行高效的强化学习后训练。

Card 01 研究单位

研究单位

论文作者来自 Show Lab 研究组。

Card 02 论文概述

论文概述

论文提出了 World-VLA-Loop 框架，旨在解决现有视频世界模型在机器人操作中存在的动作跟随精度差和奖励信号不可靠的问题。
框架通过建立世界模型与 VLA（Vision-Language-Action） 策略之间的闭环协同进化机制，使两者能够相互促进与优化。
论文引入了包含成功与近成功轨迹的 SANS 数据集，用于训练具有更高保真度的世界模型，并支持在虚拟环境中对VLA策略进行高效的强化学习后训练。

Card 03 核心贡献

核心贡献

提出了 World-VLA-Loop 闭环框架，建立了世界模型与VLA策略学习之间的迭代协同优化范式。
开发了一个状态感知的世界模型，该模型通过联合奖励-视频监督和在精心策划的近成功轨迹上训练，实现了高保真、动作条件的预测和内在奖励生成。
在 LIBERO 基准和真实世界环境中进行了评估，证明该方法能显著提升VLA性能，同时减少对昂贵物理交互的依赖。

Card 04 方法描述

方法描述

方法框架分为四个阶段：策划 SANS 数据集；在SANS上预训练动作条件的视频世界模型；在世界模型中执行VLA策略的强化学习后训练；将策略部署产生的新数据反馈以扩充SANS数据集，形成闭环。
视频世界模型基于 Cosmos-Predict 2 构建，采用 Diffusion Transformer (DiT) 骨干网络，并增加了一个奖励预测头，用于联合预测未来观测和奖励信号。
创新点在于引入近成功轨迹数据，并设计联合损失函数优化视频生成与奖励预测，从而提升模型对动作-结果关系的精准建模能力。

Card 05 数据集与资源

数据集与资源

使用的数据集包括：ManiSkill、LIBERO 仿真环境数据集以及自采集的真实世界机器人数据。
世界模型基于 Cosmos-Predict 2 进行微调，采用 Diffusion Transformer 架构。
训练资源方面，批量生成24帧视频在 NVIDIA H100 节点上需要约7秒，单个任务的强化学习训练可在30小时内完成。

Card 06 评估与结果

评估与结果

评估在 LIBERO 仿真基准和真实世界设置中进行，使用 Franka 机械臂和 RealSense D435 相机。
世界模型评估方面，平均视觉对齐率为 87.9%，奖励对齐率为 86.4%，证明了其作为高保真模拟器的可靠性。
VLA后训练结果显示，经过在世界模型中的强化学习，OpenVLA-OFT 策略在 LIBERO 套件上平均成功率提升 12.7%，在真实世界任务中提升 23.4%。经过两次迭代优化后，真实世界任务准确率相比第一轮RL检查点又提升了 13.3%。