MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training

一眼看懂封面预览

提出 MiVLA（Mutual Imitation Vision-Language-Action），一种通过人机互模仿预训练增强泛化能力的视觉…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 MiVLA（Mutual Imitation Vision-Language-Action），一种通过人机互模仿预训练增强泛化能力的视觉-语言-动作模型
解决现有 VLA 模型因真实机器人数据稀缺而导致的泛化能力不足问题，利用仿真机器人数据和人类视频数据的互补先验知识
核心思想：通过双向动作空间对齐机制，实现人类与机器人之间的互模仿学习，无需真实机器人数据即可训练通用机器人策略

Card 03 核心贡献

提出 MiVLA 模型，首次通过人机互模仿预训练将真实世界人类数据的行为保真度与仿真机器人数据的操作多样性统一到一个模型中
设计基于运动学规则的人机双向动作空间转换机制，利用左/右手坐标系对齐实现跨具身学习
在仿真和真实机器人平台（ARX、PiPer、LocoMan 三种机器人）上验证，相比 SOTA VLA（π₀、π₀.₅、H-RDT）提升 25%（仿真）和 14%（真实世界）
证明无需真实机器人数据，通过合理的预训练策略即可实现可泛化的 VLA 模型

Card 04 方法描述

Card 05 数据集与资源

仿真数据：RoboTwin-2.0 基准，50个双臂协作操作任务，2500条演示（每任务50条）
人类视频数据：EgoDex 等 egocentric 人类视频数据集
模型规模：扩散 Transformer 动作解码器
训练资源：预训练使用 4× A100 GPU，batch size 128；微调使用 2× A100 GPU，batch size 32；bf16 混合精度

Card 06 评估与结果

- 仿真平均成功率：Easy 模式 69%，Hard 模式 66%，显著优于 π₀（23%/25%）、π₀.₅（35%/53%）、H-RDT（36%/43%）

- 真实世界平均成功率：55%（全任务）、69%（子任务），在复合具身 LocoMan 上表现最佳

- 小样本适应：20条演示即可适应新任务

- 跨位置/跨物体/跨场景泛化能力显著优于基线