VideoVLA: Video Generators Can Be Generalizable Robot Manipulators - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 VideoVLA，一种将大型视频生成模型转化为通用机器人操作器的新方法。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出了一种新的机器人学习范式，即利用预训练的大型视频生成模型（如CogVideoX）作为VLA模型的主干，而不是传统基于理解模型的VLA方法。
设计了一个简单的视频-动作扩散Transformer，在统一的多模态框架内，对视频、语言和动作进行联合建模和去噪。
发现了视觉想象质量与动作可靠性之间的强相关性，高质量的想象未来视频与更高的任务成功率相关。
在模拟和真实世界实验中，VideoVLA展示了强大的泛化能力，包括处理未见过的物体和模仿其他机器人本体的技能，性能与当前最先进的VLA模型（如π₀、CogACT）相当或更优。
验证了双预测策略（同时预测动作及其视觉后果）对于提升机器人操作泛化能力的重要性和可行性。

Card 04 方法描述

Card 05 数据集与资源

Card 06 评估与结果

- 模拟（领域内）：在SIMPLER环境下的WidowX和Google机器人任务上，VideoVLA取得了最佳或极具竞争力的平均成功率（63.0%），优于RT-1-X、Octo、OpenVLA、π₀和CogACT等基线模型。

- 模拟（泛化到新物体）：在处理10个未见过的物体（来自YCB/GSO数据集）的“抓取”任务中，VideoVLA平均成功率（65.2%）显著高于其他基线模型。

- 模拟（泛化到新技能）：在让Google机器人执行仅WidowX机器人训练过的技能时，VideoVLA平均成功率（48.6%）远超其他模型，展示了强大的跨本体技能迁移能力。

- 真实世界（领域内与泛化）：在Realman机器人上，VideoVLA在“抓取”、“堆叠”、“放置”任务中取得最高的平均成功率（64.6%）。在处理12个未见过的物体时，其成功率（50.6%）也显著优于所有基线，并能成功执行未训练过的技能（如“推倒”、“擦拭”）。