返回列表 VLA / Vision-Language-Action 每日论文卡
MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent
论文提出了 MergeVLA,一个面向合并设计的视觉-语言-动作(VLA)架构,旨在将多个单技能专家模型合并为一个通用的智能体。

论文详情

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

2025-11-24 · 原文 · 翻译 · 2511.18810

论文提出了 MergeVLA,一个面向合并设计的视觉-语言-动作(VLA)架构,旨在将多个单技能专家模型合并为一个通用的智能体。 解决了现有 VLA 模型在直接合并时成功率为零的问题,揭示了导致合并失败的两个关键原因:VLM 骨干网络中 LoRA 适配器的发散以及动作专家中自注意力机制的依赖耦合。 目标是实现无需联合重训练的高效多任务机器人学习,并在未知任务身份的混合任务设置中实现自适应推理。

5 分钟读完 6 张阅读卡 UQMM Lab, The University of Queensland
一眼看懂 封面预览

论文提出了 MergeVLA,一个面向合并设计的视觉-语言-动作(VLA)架构,旨在将多个单技能专家模型合并为一个通用的智能体。

  • 论文提出了 MergeVLA,一个面向合并设计的视觉-语言-动作(VLA)架构,旨在将多个单技能专家模型合并为一个通用的智能体。
  • 解决了现有 VLA 模型在直接合并时成功率为零的问题,揭示了导致合并失败的两个关键原因:VLM 骨干网络中 LoRA 适配器的发散以及动作专家…
  • 目标是实现无需联合重训练的高效多任务机器人学习,并在未知任务身份的混合任务设置中实现自适应推理。
Card 01 研究单位

研究单位

  • UQMM Lab, The University of Queensland
Card 02 论文概述

论文概述

  • 论文提出了 MergeVLA,一个面向合并设计的视觉-语言-动作(VLA)架构,旨在将多个单技能专家模型合并为一个通用的智能体。
  • 解决了现有 VLA 模型在直接合并时成功率为零的问题,揭示了导致合并失败的两个关键原因:VLM 骨干网络中 LoRA 适配器的发散以及动作专家中自注意力机制的依赖耦合。
  • 目标是实现无需联合重训练的高效多任务机器人学习,并在未知任务身份的混合任务设置中实现自适应推理。
Card 03 核心贡献

核心贡献

  • 识别了 VLA 模型无法合并的两大根源:LoRA 参数的破坏性干扰和动作专家架构的不兼容性。
  • 提出了基于任务掩码的稀疏激活 LoRA 机制,通过选择性地激活合并参数来缓解任务间的参数冲突。
  • 重新设计了动作专家架构,移除了自注意力层并将门控函数改为 sigmoid,从而增强了模型的可合并性和泛化能力。
  • 设计了一种无需训练的测试时任务路由器,利用值投影子空间在推理阶段自适应选择任务掩码和专家头。
Card 04 方法描述

方法描述

  • VLM 合并策略:对合并后的 LoRA 参数应用任务特定的二进制掩码,仅保留对该任务有益且不与其他任务冲突的参数,解决了“自私参数”问题。
  • 动作专家重构:移除动作专家中的自注意力层,迫使其依赖鲁棒的 VLM 特征;将门控函数从 $tanh$ 替换为 $sigmoid$ 以保留 VLM 信号;仅保留最后一层(专家头)不合并,其余层通过权重平均合并。
  • 测试时路由:通过奇异值分解(SVD)提取合并动作专家值投影矩阵的主成分,计算隐藏状态在这些子空间上的激活强度,从而在未知任务标签时自动选择正确的任务组件。
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO(包含 Spatial, Object, Goal, Long 四个任务套件)、LIBERO-Plus(鲁棒性基准)、RoboTwin 2.0(双臂操作基准)以及真实世界 SO101 机械臂实验数据。
  • 模型规模:视觉语言骨干网络基于 Qwen2.5-0.5B,整体参数量约为 0.68B(VLA-Adapter/MergeVLA 结构)。
  • 训练资源:使用单张 NVIDIA A6000 Ada GPU (48 GB) 进行微调。
Card 06 评估与结果

评估与结果

  • 评估环境:仿真环境 LIBEROLIBERO-PlusRoboTwin 2.0,以及真实世界 SO101 机械臂。
  • 主要指标:任务成功率。
  • 关键结果:

- 在 LIBERO 基准上,MergeVLA(结合 TIES 合并方法)达到了 90.2% 的平均成功率,接近单独微调专家的性能上限(98.5%)。

- 在 LIBERO-Plus 鲁棒性测试中,MergeVLA 在 7 种干扰下表现优异,平均成功率达 72.4%,显著优于 VLA-Adapter(59.0%)。

- 在真实世界 SO101 机械臂的多任务实验中,MergeVLA 实现了 90.0% 的成功率。