返回列表 VLA / Vision-Language-Action 每日论文卡
Large Video Planner Enables Generalizable Robot Control
探索以视频作为主要模态构建机器人基础模型的新范式,替代传统的视觉-语言-动作(VLA)方法

论文详情

Large Video Planner Enables Generalizable Robot Control

2025-12-17 · 原文 · 翻译 · 2512.15840

探索以视频作为主要模态构建机器人基础模型的新范式,替代传统的视觉-语言-动作(VLA)方法 提出 Large Video Planner (LVP),一个140亿参数的视频基础模型,用于生成式机器人规划,实现零样本任务级泛化

5 分钟读完 6 张阅读卡 MIT(第一作者 Boyuan Chen、Tianyuan Zhang、Kiwhan Song、Wil…
一眼看懂 封面预览

探索以视频作为主要模态构建机器人基础模型的新范式,替代传统的视觉-语言-动作(VLA)方法

  • 探索以视频作为主要模态构建机器人基础模型的新范式,替代传统的视觉-语言-动作(VLA)方法
  • 提出 Large Video Planner (LVP),一个140亿参数的视频基础模型,用于生成式机器人规划,实现零样本任务级泛化
  • 首次在基础模型规模上训练开源视频模型用于机器人规划,生成零样本视频计划并提取可执行机器人动作
Card 01 研究单位

研究单位

  • MIT(第一作者 Boyuan Chen、Tianyuan Zhang、Kiwhan Song、William T. Freeman、Russ Tedrake、Vincent Sitzmann 等)
  • UC Berkeley(Haoran Geng、Caiyi Zhang、Peihao Li、Jitendra Malik、Pieter Abbeel 等)
  • Harvard(Yilun Du)
Card 02 论文概述

论文概述

  • 探索以视频作为主要模态构建机器人基础模型的新范式,替代传统的视觉-语言-动作(VLA)方法
  • 提出 Large Video Planner (LVP),一个140亿参数的视频基础模型,用于生成式机器人规划,实现零样本任务级泛化
Card 03 核心贡献

核心贡献

  • 首次在基础模型规模上训练开源视频模型用于机器人规划,生成零样本视频计划并提取可执行机器人动作
  • 构建并开源 LVP-1M 数据集,包含140万条经过精心筛选的人类活动和机器人操作视频片段
  • 提出结合 Diffusion ForcingHistory Guidance 的视频生成方法,显著增强时间一致性和物理连贯性
  • 通过第三方独立测试和真实机器人实验,验证任务级泛化能力,在多样化场景和任务中实现物理执行
Card 04 方法描述

方法描述

  • Latent Diffusion 框架:使用时序因果3D VAE压缩视频,在隐空间训练扩散模型
  • Diffusion Forcing Transformer:对不同帧应用独立噪声级别,实现灵活的图像到视频(I2V)和视频到视频(V2V)条件生成
  • History Guidance:结合文本CFG和历史帧引导,增强生成视频对初始观察帧的遵循度
  • 动作提取流程:通过 HaMeR 进行手部姿态估计,MegaSaM 进行4D对齐,Dex-Retargeting 重定向到机器人执行器
Card 05 数据集与资源

数据集与资源

  • LVP-1M 数据集:140万条视频片段,来源包括 Bridge、DROID、AgiBot-World、Ego4D、Epic-Kitchens、Something-Something、Panda-70M 等
  • 模型规模:14B 参数(基于 Wan 2.1 14B 继续预训练)
  • 训练资源:128 张 H100 SXM5 GPU,约14天训练时间
  • 训练数据量:200B tokens(第一阶段60k步,第二阶段10k步低相机运动微调)
Card 06 评估与结果

评估与结果

  • 第三方任务评估:100个由独立测试者提出的野外任务,涵盖多样化场景(如加油站、马桶冲水、撕胶带等)
  • 四级评估指标:正确接触(87.3%)、正确终止状态(63.2%)、任务完成(59.3%)、完美完成(44.0%)
  • 基线对比:显著优于 Wan 2.1、Cosmos-Predict 2、Hunyuan 等视频生成模型
  • 真实机器人实验:在 Franka 平行夹爪和 G1 灵巧手上测试,涵盖拾取、开门、擦桌、舀咖啡豆、撕胶带等任务,成功率显著高于 π₀ 和 OpenVLA