MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

一眼看懂封面预览

论文提出了 MergeVLA，一个面向合并设计的视觉-语言-动作（VLA）架构，旨在将多个单技能专家模型合并为一个通用的智能体。

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了 MergeVLA，一个面向合并设计的视觉-语言-动作（VLA）架构，旨在将多个单技能专家模型合并为一个通用的智能体。
解决了现有 VLA 模型在直接合并时成功率为零的问题，揭示了导致合并失败的两个关键原因：VLM 骨干网络中 LoRA 适配器的发散以及动作专家中自注意力机制的依赖耦合。
目标是实现无需联合重训练的高效多任务机器人学习，并在未知任务身份的混合任务设置中实现自适应推理。

Card 03 核心贡献

Card 04 方法描述

VLM 合并策略：对合并后的 LoRA 参数应用任务特定的二进制掩码，仅保留对该任务有益且不与其他任务冲突的参数，解决了“自私参数”问题。
动作专家重构：移除动作专家中的自注意力层，迫使其依赖鲁棒的 VLM 特征；将门控函数从 $tanh$ 替换为 $sigmoid$ 以保留 VLM 信号；仅保留最后一层（专家头）不合并，其余层通过权重平均合并。
测试时路由：通过奇异值分解（SVD）提取合并动作专家值投影矩阵的主成分，计算隐藏状态在这些子空间上的激活强度，从而在未知任务标签时自动选择正确的任务组件。

Card 05 数据集与资源

数据集：LIBERO（包含 Spatial, Object, Goal, Long 四个任务套件）、LIBERO-Plus（鲁棒性基准）、RoboTwin 2.0（双臂操作基准）以及真实世界 SO101 机械臂实验数据。
模型规模：视觉语言骨干网络基于 Qwen2.5-0.5B，整体参数量约为 0.68B（VLA-Adapter/MergeVLA 结构）。
训练资源：使用单张 NVIDIA A6000 Ada GPU (48 GB) 进行微调。

Card 06 评估与结果

- 在 LIBERO 基准上，MergeVLA（结合 TIES 合并方法）达到了 90.2% 的平均成功率，接近单独微调专家的性能上限（98.5%）。

- 在 LIBERO-Plus 鲁棒性测试中，MergeVLA 在 7 种干扰下表现优异，平均成功率达 72.4%，显著优于 VLA-Adapter（59.0%）。

- 在真实世界 SO101 机械臂的多任务实验中，MergeVLA 实现了 90.0% 的成功率。