论文提出 M²-VLA 模型，旨在通过混合层机制和元技能模块提升视觉语言模型在机器人操作任务中的泛化能力

论文详情

$M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

2026-04-27 · 原文 · 翻译 · 2604.24182

论文提出 M²-VLA 模型，旨在通过混合层机制和元技能模块提升视觉语言模型在机器人操作任务中的泛化能力核心目标是解决当前视觉语言动作模型端到端微调导致的灾难性遗忘问题，损害了原始视觉语言模型的泛化能力证明通用视觉语言模型可以作为强大的骨干网络直接用于机器人操作任务

4 分钟读完 6 张阅读卡清华大学深圳国际研究生院

一眼看懂封面预览

论文提出 M²-VLA 模型，旨在通过混合层机制和元技能模块提升视觉语言模型在机器人操作任务中的泛化能力

论文提出 M²-VLA 模型，旨在通过混合层机制和元技能模块提升视觉语言模型在机器人操作任务中的泛化能力
核心目标是解决当前视觉语言动作模型端到端微调导致的灾难性遗忘问题，损害了原始视觉语言模型的泛化能力
证明通用视觉语言模型可以作为强大的骨干网络直接用于机器人操作任务

Card 01 研究单位

研究单位

清华大学深圳国际研究生院
鹏城实验室
复旦大学智能机器人与先进制造学院
Synapath

Card 02 论文概述

论文概述

论文提出 M²-VLA 模型，旨在通过 混合层机制 和 元技能模块 提升视觉语言模型在机器人操作任务中的泛化能力
核心目标是解决当前 视觉语言动作模型 端到端微调导致的 灾难性遗忘 问题，损害了原始 视觉语言模型 的泛化能力
证明通用 视觉语言模型 可以作为强大的骨干网络直接用于机器人操作任务

Card 03 核心贡献

核心贡献

提出 混合层机制，通过提取操作关键的细粒度空间信息来连接高层语义理解和底层精确控制
设计 元技能模块，通过知识重用和强归纳偏置增强轻量级动作头的轨迹学习能力
通过新颖架构设计使冻结的通用 视觉语言模型 能够作为高性能机器人操作的骨干网络，避免灾难性遗忘

Card 04 方法描述

方法描述

采用预训练 视觉语言模型 作为冻结的感知骨干，保持参数不变以维持泛化能力
引入 混合层机制，包含三个解耦注意力分支，动态过滤和聚合任务相关特征
设计轻量级动作头作为去噪 transformer，结合 元技能模块 的技能检索和动作细化机制
使用 DINOv2 和 SigLIP 处理视觉输入，结合可学习查询提取跨模态信息

Card 05 数据集与资源

数据集与资源

使用 Libero 数据集进行仿真实验，包含 Spatial、Object、Goal、Long 四个测试套件
模型参数量约 0.3B（可训练部分），远小于基准方法的 7B
训练资源：4 NVIDIA A800 GPU，单卡 RTX 3090 仅需8小时完成训练
真实世界实验使用 AgileX PiPer 机械臂和2个RGB相机采集数据

Card 06 评估与结果

评估与结果

在 Libero 仿真基准上取得最佳平均成功率 95.3%，显著优于其他方法
在指令跟随泛化任务中成功率 66.2%，性能下降仅 29.4%，优于基线方法
在新物体泛化任务中成功率 34.4%，性能下降仅 30.4%
真实世界任务中基础操作成功率 85-90%，泛化任务成功率 75-80%
消融研究验证 混合层机制 和 元技能模块 均对性能提升有显著贡献