mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

一眼看懂封面预览

提出 mimic-video，一种新型的 Video-Action Model (VAM)，将预训练的互联网规模视频模型与基于流匹配的动作解码…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 mimic-video，一种新型的 Video-Action Model (VAM)，将预训练的互联网规模视频模型与基于流匹配的动作解码器相结合，实现可泛化的机器人控制
解决传统 Vision-Language-Action (VLA) 模型的核心局限：VLA 基于静态图像-文本数据预训练，缺乏对物理动态和时间依赖的固有理解，导致需要大量昂贵的机器人演示数据来弥补
核心论点：视频预训练能够同时捕捉语义信息和视觉动态，将策略学习简化为低层控制任务，从而显著提高样本效率

Card 03 核心贡献

Card 04 方法描述

架构：双组件流匹配模型，包括 (1) 预训练的视频主干网络 Cosmos-Predict2（2B 参数 DiT）和 (2) 轻量级动作解码器（作为逆动力学模型 IDM）
关键创新：动作解码器以视频模型的 中间层隐藏状态 h^{τ_v} 为条件，而非完整生成的视频帧，实现高效的边缘动作分布采样
训练流程：两阶段训练——(1) 使用 LoRA 在机器人视频数据上微调视频主干；(2) 冻结视频网络，从头训练动作解码器，独立采样视频和动作的流时间 τ_v 和 τ_a
推理优化：采用 τ_v=1（纯噪声输入）的默认配置，仅需单次视频网络前向传播即可生成动作，兼顾性能与速度

Card 05 数据集与资源

Card 06 评估与结果

SIMPLER-Bridge：mimic-video (scratch) 平均成功率 46.9%，显著优于 π_0.5-style VLA (35.4%) 和其他基线；任务优化 τ_v 后提升至 56.3%
LIBERO：mimic-video (scratch) 平均成功率 93.9%，接近 OpenVLA-OFT (96.9%) 且优于 π_0.5-style VLA (85.9%)
真实世界灵巧操作：在双手包装排序任务上成功率 72.0%（对比 DiT-Block Policy 11.0%/42.6%），包裹递送任务 93.0%（对比 30.0%/74.1%），仅使用单视角输入即超越多视角基线
样本效率：在 LIBERO 上，mimic-video 动作解码器仅需 10% 训练数据 即可达到 VLA 基线的最大成功率；98% 数据缩减（每任务 1 回合）仍保持 77% 成功率
收敛速度：mimic-video 动作解码器收敛更快且渐近成功率更高，尽管 VLA 基线已进行任务特定预训练