返回列表 VLA / Vision-Language-Action 每日论文卡
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs
提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码…

论文详情

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

2025-12-17 · 原文 · 翻译 · 2512.15692

提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码器相结合,实现可泛化的机器人控制 解决传统 Vision-Language-Action (VLA) 模型的核心局限:VLA 基于静态图像-文本数据预训练,缺乏对物理动态和时间依赖的固有理解,导致需要大量昂贵的机器人演示数据来弥补 核心论点:视频预训练能够同时捕捉语义信息和视…

6 分钟读完 6 张阅读卡 mimic robotics
一眼看懂 封面预览

提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码…

  • 提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码…
  • 解决传统 Vision-Language-Action (VLA) 模型的核心局限:VLA 基于静态图像-文本数据预训练,缺乏对物理动态和时间…
  • 核心论点:视频预训练能够同时捕捉语义信息和视觉动态,将策略学习简化为低层控制任务,从而显著提高样本效率
Card 01 研究单位

研究单位

  • mimic robotics
  • Microsoft Zurich
  • ETH Zurich
  • ETH AI Center
  • UC Berkeley
Card 02 论文概述

论文概述

  • 提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码器相结合,实现可泛化的机器人控制
  • 解决传统 Vision-Language-Action (VLA) 模型的核心局限:VLA 基于静态图像-文本数据预训练,缺乏对物理动态和时间依赖的固有理解,导致需要大量昂贵的机器人演示数据来弥补
  • 核心论点:视频预训练能够同时捕捉语义信息和视觉动态,将策略学习简化为低层控制任务,从而显著提高样本效率
Card 03 核心贡献

核心贡献

  • 提出 Video-Action Models (VAMs) 新范式,首次将互联网规模的生成式视频预训练与机器人控制直接结合
  • 设计 部分去噪 (partial denoising) 策略,从视频模型的中间潜表示中提取条件信息,避免完整的视频生成开销,实现实时推理
  • 实现 10 倍样本效率提升2 倍收敛速度提升,相比传统 VLA 架构
  • 在模拟环境(SIMPLER-Bridge、LIBERO)和真实世界灵巧双手操作系统上取得 SOTA 性能
  • 揭示视频保真度与动作性能之间的反直觉权衡:最高噪声水平(τ_v=1)反而获得最佳策略性能和最快推理速度
Card 04 方法描述

方法描述

  • 架构:双组件流匹配模型,包括 (1) 预训练的视频主干网络 Cosmos-Predict2(2B 参数 DiT)和 (2) 轻量级动作解码器(作为逆动力学模型 IDM)
  • 关键创新:动作解码器以视频模型的 中间层隐藏状态 h^{τ_v} 为条件,而非完整生成的视频帧,实现高效的边缘动作分布采样
  • 训练流程:两阶段训练——(1) 使用 LoRA 在机器人视频数据上微调视频主干;(2) 冻结视频网络,从头训练动作解码器,独立采样视频和动作的流时间 τ_v 和 τ_a
  • 推理优化:采用 τ_v=1(纯噪声输入)的默认配置,仅需单次视频网络前向传播即可生成动作,兼顾性能与速度
Card 05 数据集与资源

数据集与资源

  • SIMPLER-Bridge:基于 BridgeDataV2 数据集,评估跨任务泛化能力
  • LIBERO:LIBERO-Goal、LIBERO-Object、LIBERO-Spatial 三个任务套件,每任务 50 次专家演示
  • 真实世界数据:200 小时视频数据用于视频主干微调;任务特定动作数据极少(包装排序 1h 33m/512 回合,胶带收纳 2h 14m/480 回合)
  • 计算资源:瑞士国家超级计算中心 (CSCS) Alps 基础设施,mimic robotics 提供的实验平台和计算资源
Card 06 评估与结果

评估与结果

  • SIMPLER-Bridge:mimic-video (scratch) 平均成功率 46.9%,显著优于 π_0.5-style VLA (35.4%) 和其他基线;任务优化 τ_v 后提升至 56.3%
  • LIBERO:mimic-video (scratch) 平均成功率 93.9%,接近 OpenVLA-OFT (96.9%) 且优于 π_0.5-style VLA (85.9%)
  • 真实世界灵巧操作:在双手包装排序任务上成功率 72.0%(对比 DiT-Block Policy 11.0%/42.6%),包裹递送任务 93.0%(对比 30.0%/74.1%),仅使用单视角输入即超越多视角基线
  • 样本效率:在 LIBERO 上,mimic-video 动作解码器仅需 10% 训练数据 即可达到 VLA 基线的最大成功率;98% 数据缩减(每任务 1 回合)仍保持 77% 成功率
  • 收敛速度:mimic-video 动作解码器收敛更快且渐近成功率更高,尽管 VLA 基线已进行任务特定预训练