一眼看懂
封面预览
提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码…
- 提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码…
- 解决传统 Vision-Language-Action (VLA) 模型的核心局限:VLA 基于静态图像-文本数据预训练,缺乏对物理动态和时间…
- 核心论点:视频预训练能够同时捕捉语义信息和视觉动态,将策略学习简化为低层控制任务,从而显著提高样本效率
Card 01
研究单位
研究单位
- mimic robotics
- Microsoft Zurich
- ETH Zurich
- ETH AI Center
- UC Berkeley
Card 02
论文概述
论文概述
- 提出 mimic-video,一种新型的 Video-Action Model (VAM),将预训练的互联网规模视频模型与基于流匹配的动作解码器相结合,实现可泛化的机器人控制
- 解决传统 Vision-Language-Action (VLA) 模型的核心局限:VLA 基于静态图像-文本数据预训练,缺乏对物理动态和时间依赖的固有理解,导致需要大量昂贵的机器人演示数据来弥补
- 核心论点:视频预训练能够同时捕捉语义信息和视觉动态,将策略学习简化为低层控制任务,从而显著提高样本效率
Card 03
核心贡献
核心贡献
- 提出 Video-Action Models (VAMs) 新范式,首次将互联网规模的生成式视频预训练与机器人控制直接结合
- 设计 部分去噪 (partial denoising) 策略,从视频模型的中间潜表示中提取条件信息,避免完整的视频生成开销,实现实时推理
- 实现 10 倍样本效率提升 和 2 倍收敛速度提升,相比传统 VLA 架构
- 在模拟环境(SIMPLER-Bridge、LIBERO)和真实世界灵巧双手操作系统上取得 SOTA 性能
- 揭示视频保真度与动作性能之间的反直觉权衡:最高噪声水平(τ_v=1)反而获得最佳策略性能和最快推理速度
Card 04
方法描述
方法描述
- 架构:双组件流匹配模型,包括 (1) 预训练的视频主干网络 Cosmos-Predict2(2B 参数 DiT)和 (2) 轻量级动作解码器(作为逆动力学模型 IDM)
- 关键创新:动作解码器以视频模型的 中间层隐藏状态 h^{τ_v} 为条件,而非完整生成的视频帧,实现高效的边缘动作分布采样
- 训练流程:两阶段训练——(1) 使用 LoRA 在机器人视频数据上微调视频主干;(2) 冻结视频网络,从头训练动作解码器,独立采样视频和动作的流时间 τ_v 和 τ_a
- 推理优化:采用 τ_v=1(纯噪声输入)的默认配置,仅需单次视频网络前向传播即可生成动作,兼顾性能与速度
Card 05
数据集与资源
数据集与资源
- SIMPLER-Bridge:基于 BridgeDataV2 数据集,评估跨任务泛化能力
- LIBERO:LIBERO-Goal、LIBERO-Object、LIBERO-Spatial 三个任务套件,每任务 50 次专家演示
- 真实世界数据:200 小时视频数据用于视频主干微调;任务特定动作数据极少(包装排序 1h 33m/512 回合,胶带收纳 2h 14m/480 回合)
- 计算资源:瑞士国家超级计算中心 (CSCS) Alps 基础设施,mimic robotics 提供的实验平台和计算资源
Card 06
评估与结果
评估与结果
- SIMPLER-Bridge:mimic-video (scratch) 平均成功率 46.9%,显著优于 π_0.5-style VLA (35.4%) 和其他基线;任务优化 τ_v 后提升至 56.3%
- LIBERO:mimic-video (scratch) 平均成功率 93.9%,接近 OpenVLA-OFT (96.9%) 且优于 π_0.5-style VLA (85.9%)
- 真实世界灵巧操作:在双手包装排序任务上成功率 72.0%(对比 DiT-Block Policy 11.0%/42.6%),包裹递送任务 93.0%(对比 30.0%/74.1%),仅使用单视角输入即超越多视角基线
- 样本效率:在 LIBERO 上,mimic-video 动作解码器仅需 10% 训练数据 即可达到 VLA 基线的最大成功率;98% 数据缩减(每任务 1 回合)仍保持 77% 成功率
- 收敛速度:mimic-video 动作解码器收敛更快且渐近成功率更高,尽管 VLA 基线已进行任务特定预训练