MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

研究目标: 解决视觉-语言-动作（VLA）模型在具身智能任务中的后训练效率和泛化能力问题，当前方法需要针对每个任务进行独立微调，计算成本高且泛…

Card 01 研究单位

研究单位

Carnegie Mellon University (CMU): Chen Li, Zhantao Yang, Han Zhang, Fangyi Chen, Anudeepsekhar Bolimera, Marios Savvides
Meta Reality Labs, USA: Chenchen Zhu

Card 02 论文概述

研究目标: 解决视觉-语言-动作（VLA）模型在具身智能任务中的后训练效率和泛化能力问题，当前方法需要针对每个任务进行独立微调，计算成本高且泛化性能差
核心方法: 提出 MetaVLA 框架，采用 Context-Aware Meta Co-Training（上下文感知元协同训练），将多个目标任务统一到一个微调阶段，同时利用结构多样的辅助任务提升域内泛化能力
关键创新: 引入基于 Attentive Neural Processes（ANP）的轻量级元学习模块——Meta-Action-Reasoner（MAR），无需大规模架构改动或推理开销即可实现快速适应

Card 03 核心贡献

Card 04 方法描述

MAR（Meta-Action-Reasoner）架构: 基于 Attentive Neural Processes，构建对目标动作的条件分布建模，包含自注意力（聚合上下文表示）和交叉注意力（融合目标查询）机制
数据银行设计: 包含上下文银行（context bank）和目标银行（target bank）；上下文银行由域内任务（4个 LIBERO 套件）和辅助任务（GR00T 数据集）组成，目标银行仅包含域内任务
训练协议: 每 K=200 步刷新一次上下文集，从每个上下文任务中随机采样 b_C=32 个示例
辅助任务选择: 选择 GR00T 数据集中与 LIBERO 部分相关但结构不同（侧视图、双臂操作等）的任务，增强上下文多样性

Card 05 数据集与资源

Card 06 评估与结果

- MetaVLA（6个辅助任务）平均成功率 79.3%，比 OpenVLA（4个独立模型）提升 4.4%

- 在 LIBERO-Long 上提升 8.0%，在 LIBERO-Goal 上提升 2.7%

- 单一模型替代四个任务特定模型，训练步骤减少 68.75%

- 在不同骨干网络（NORA-Long）上验证了方法的有效性，平均提升 4.9%-6.4%

- 消融实验验证了上下文批次大小、辅助任务选择、多任务协同训练机制等各组件的贡献