返回列表 VLA / Vision-Language-Action 每日论文卡
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
提出 VideoVLA,一种将大型视频生成模型转化为通用机器人操作器的新方法。

论文详情

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

2025-12-07 · 原文 · 翻译 · 2512.06963

提出 VideoVLA,一种将大型视频生成模型转化为通用机器人操作器的新方法。 核心是让模型在给定语言指令和当前视觉观测的情况下,联合预测未来的动作序列和对应的视觉结果。 旨在解决机器人操作中泛化能力有限的问题,使机器人能够处理未见过的任务、物体和场景。

6 分钟读完 6 张阅读卡 IAIR,西安交通大学
一眼看懂 封面预览

提出 VideoVLA,一种将大型视频生成模型转化为通用机器人操作器的新方法。

  • 提出 VideoVLA,一种将大型视频生成模型转化为通用机器人操作器的新方法。
  • 核心是让模型在给定语言指令和当前视觉观测的情况下,联合预测未来的动作序列和对应的视觉结果。
  • 旨在解决机器人操作中泛化能力有限的问题,使机器人能够处理未见过的任务、物体和场景。
Card 01 研究单位

研究单位

  • IAIR,西安交通大学
  • 微软亚洲研究院 (Microsoft Research Asia)
  • 复旦大学
Card 02 论文概述

论文概述

  • 提出 VideoVLA,一种将大型视频生成模型转化为通用机器人操作器的新方法。
  • 核心是让模型在给定语言指令和当前视觉观测的情况下,联合预测未来的动作序列和对应的视觉结果
  • 旨在解决机器人操作中泛化能力有限的问题,使机器人能够处理未见过的任务、物体和场景。
Card 03 核心贡献

核心贡献

  • 提出了一种新的机器人学习范式,即利用预训练的大型视频生成模型(如CogVideoX)作为VLA模型的主干,而不是传统基于理解模型的VLA方法。
  • 设计了一个简单的视频-动作扩散Transformer,在统一的多模态框架内,对视频、语言和动作进行联合建模和去噪。
  • 发现了视觉想象质量与动作可靠性之间的强相关性,高质量的想象未来视频与更高的任务成功率相关。
  • 在模拟和真实世界实验中,VideoVLA展示了强大的泛化能力,包括处理未见过的物体和模仿其他机器人本体的技能,性能与当前最先进的VLA模型(如π₀、CogACT)相当或更优。
  • 验证了双预测策略(同时预测动作及其视觉后果)对于提升机器人操作泛化能力的重要性和可行性。
Card 04 方法描述

方法描述

  • 基于扩散Transformer架构,将预训练的CogVideoX视频生成模型转化为视频-动作生成器。
  • 关键创新:在DiT架构中增加动作作为一个新的输出模态,使其能够根据语言指令和当前观测的潜在表示,联合去噪未来的视频潜在表示和动作序列
  • 使用因果视频VAE编码视频,T5编码器编码语言,动作则直接使用7维向量表示(手腕旋转、平移和夹爪状态)。
  • 模型以DDPM扩散损失进行训练,学习根据指令生成与物理世界一致的动作和视觉未来。
Card 05 数据集与资源

数据集与资源

  • 主要使用Open X-Embodiment数据集进行预训练,包含来自22种不同机器人本体的超百万条真实世界轨迹。
  • 真实世界微调使用自收集的数据集,包含5824个样本,涵盖“抓取”、“堆叠”、“放置”三个任务,使用Realman机器人(7自由度机械臂)收集。
  • 模型基于CogVideoX-5B预训练模型。
  • 训练资源:使用32块AMD MI300X GPU进行训练,预训练10万次迭代,微调1.5万次迭代,批大小为256。
Card 06 评估与结果

评估与结果

  • 评估环境:模拟实验在SIMPLER环境中进行;真实世界实验使用Realman机器人。
  • 评估指标:任务成功率
  • 关键结果

- 模拟(领域内):在SIMPLER环境下的WidowX和Google机器人任务上,VideoVLA取得了最佳或极具竞争力的平均成功率(63.0%),优于RT-1-X、Octo、OpenVLA、π₀和CogACT等基线模型。

- 模拟(泛化到新物体):在处理10个未见过的物体(来自YCB/GSO数据集)的“抓取”任务中,VideoVLA平均成功率(65.2%)显著高于其他基线模型。

- 模拟(泛化到新技能):在让Google机器人执行仅WidowX机器人训练过的技能时,VideoVLA平均成功率(48.6%)远超其他模型,展示了强大的跨本体技能迁移能力。

- 真实世界(领域内与泛化):在Realman机器人上,VideoVLA在“抓取”、“堆叠”、“放置”任务中取得最高的平均成功率(64.6%)。在处理12个未见过的物体时,其成功率(50.6%)也显著优于所有基线,并能成功执行未训练过的技能(如“推倒”、“擦拭”)。