返回列表 VLA / Vision-Language-Action 每日论文卡
MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption
研究目标: 解决视觉-语言-动作(VLA)模型在具身智能任务中的后训练效率和泛化能力问题,当前方法需要针对每个任务进行独立微调,计算成本高且泛…

论文详情

MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption

2025-10-07 · 原文 · 翻译 · 2510.05580

研究目标: 解决视觉-语言-动作(VLA)模型在具身智能任务中的后训练效率和泛化能力问题,当前方法需要针对每个任务进行独立微调,计算成本高且泛化性能差 核心方法: 提出 MetaVLA 框架,采用 Context-Aware Meta Co-Training(上下文感知元协同训练),将多个目标任务统一到一个微调阶段,同时利用结构多样的辅助任务提升域内泛化能力 关键创新: 引入基于 Attentive Neural…

6 分钟读完 6 张阅读卡 Carnegie Mellon University (CMU): Chen Li, Zhantao…
一眼看懂 封面预览

研究目标: 解决视觉-语言-动作(VLA)模型在具身智能任务中的后训练效率和泛化能力问题,当前方法需要针对每个任务进行独立微调,计算成本高且泛…

  • 研究目标: 解决视觉-语言-动作(VLA)模型在具身智能任务中的后训练效率和泛化能力问题,当前方法需要针对每个任务进行独立微调,计算成本高且泛…
  • 核心方法: 提出 MetaVLA 框架,采用 Context-Aware Meta Co-Training(上下文感知元协同训练),将多个目标…
  • 关键创新: 引入基于 Attentive Neural Processes(ANP)的轻量级元学习模块——Meta-Action-Reason…
Card 01 研究单位

研究单位

  • Carnegie Mellon University (CMU): Chen Li, Zhantao Yang, Han Zhang, Fangyi Chen, Anudeepsekhar Bolimera, Marios Savvides
  • Meta Reality Labs, USA: Chenchen Zhu
Card 02 论文概述

论文概述

  • 研究目标: 解决视觉-语言-动作(VLA)模型在具身智能任务中的后训练效率和泛化能力问题,当前方法需要针对每个任务进行独立微调,计算成本高且泛化性能差
  • 核心方法: 提出 MetaVLA 框架,采用 Context-Aware Meta Co-Training(上下文感知元协同训练),将多个目标任务统一到一个微调阶段,同时利用结构多样的辅助任务提升域内泛化能力
  • 关键创新: 引入基于 Attentive Neural Processes(ANP)的轻量级元学习模块——Meta-Action-Reasoner(MAR),无需大规模架构改动或推理开销即可实现快速适应
Card 03 核心贡献

核心贡献

  • 提出一种后训练方向:通过引入多样化的辅助任务来提升 VLA 模型的泛化能力,同时保持可忽略的优化开销
  • 设计 MetaVLA 框架,包含即插即用的模块和训练策略,实现快速、可扩展的适应和强泛化能力,框架与骨干网络和训练管道无关
  • 在 LIBERO 基准上进行了全面实验,结果表明 MetaVLA 在显著降低训练成本的同时实现了优越性能
  • 在 LIBERO-Long 任务上比 OpenVLA 提升 8.0%,平均提升 4.4%
  • 训练步骤从 240K 减少到 75K(减少 68.75%),GPU 时间减少 76%
Card 04 方法描述

方法描述

  • MAR(Meta-Action-Reasoner)架构: 基于 Attentive Neural Processes,构建对目标动作的条件分布建模,包含自注意力(聚合上下文表示)和交叉注意力(融合目标查询)机制
  • 数据银行设计: 包含上下文银行(context bank)和目标银行(target bank);上下文银行由域内任务(4个 LIBERO 套件)和辅助任务(GR00T 数据集)组成,目标银行仅包含域内任务
  • 训练协议: 每 K=200 步刷新一次上下文集,从每个上下文任务中随机采样 b_C=32 个示例
  • 辅助任务选择: 选择 GR00T 数据集中与 LIBERO 部分相关但结构不同(侧视图、双臂操作等)的任务,增强上下文多样性
Card 05 数据集与资源

数据集与资源

  • 基准数据集: LIBERO benchmark(4个任务套件:Goal、Spatial、Object、Long)
  • 辅助数据: GR00T 数据集(NVIDIA 的人形机器人数据)
  • 骨干网络: OpenVLA(7B 参数)、NORA-Long(3B Qwen2.5-VL 基础)
  • 训练资源: 8 张 A100 80GB GPU,训练时间约 24 小时(相比原来约 100 小时)
  • 推理开销: 仅增加 0.3 ms/token 的延迟
Card 06 评估与结果

评估与结果

  • 评估环境: LIBERO 模拟环境,使用 RTX-4090 GPU 进行评估
  • 主要指标: 成功率(Success Rate, SR)
  • 关键结果:

- MetaVLA(6个辅助任务)平均成功率 79.3%,比 OpenVLA(4个独立模型)提升 4.4%

- 在 LIBERO-Long 上提升 8.0%,在 LIBERO-Goal 上提升 2.7%

- 单一模型替代四个任务特定模型,训练步骤减少 68.75%

- 在不同骨干网络(NORA-Long)上验证了方法的有效性,平均提升 4.9%-6.4%

- 消融实验验证了上下文批次大小、辅助任务选择、多任务协同训练机制等各组件的贡献