返回列表 VLA / Vision-Language-Action 每日论文卡
Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging
提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。

论文详情

Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging

2025-12-09 · 原文 · 翻译 · 2512.08333

提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。 目标是使微调后的单一策略既能稳健地学习新技能(泛化到未见过的任务变体),又能保留预训练模型广泛的通用能力。 该方法旨在弥合通用策略(大规模预训练)与有效适应新特定任务之间的差距,尤其是在数据有限(约100个演示)的情况下。

7 分钟读完 6 张阅读卡 UC Berkeley (加州大学伯克利分校)
一眼看懂 封面预览

提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。

  • 提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
  • 目标是使微调后的单一策略既能稳健地学习新技能(泛化到未见过的任务变体),又能保留预训练模型广泛的通用能力。
  • 该方法旨在弥合通用策略(大规模预训练)与有效适应新特定任务之间的差距,尤其是在数据有限(约100个演示)的情况下。
Card 01 研究单位

研究单位

  • UC Berkeley (加州大学伯克利分校)
Card 02 论文概述

论文概述

  • 提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
  • 目标是使微调后的单一策略既能稳健地学习新技能(泛化到未见过的任务变体),又能保留预训练模型广泛的通用能力
  • 该方法旨在弥合通用策略(大规模预训练)与有效适应新特定任务之间的差距,尤其是在数据有限(约100个演示)的情况下。
Card 03 核心贡献

核心贡献

  • 提出了 RETAIN (Robust finE-tuning wiTh pArameter mergINg) 方法,一种简单的策略微调方法,通过在权重空间内插值预训练和微调后的模型参数,生成鲁棒性更强的单一策略。
  • 在广泛的真实世界(DROID)和仿真(LIBERO)机器人微调任务中进行了全面评估,证明了 RETAIN 在新任务上具有更好的分布外(OOD)泛化能力,同时保留了通用技能,显著优于现有基线方法。
  • 分析了影响模型合并有效性的关键因素,发现:性能随预训练数据量的增加而提升;在多模态模型中,仅合并语言模型主干参数通常就足够
  • 展示了 RETAIN 能够实现新技能的持续顺序学习(持续学习),通过迭代合并,将多个技能融入单一策略而不遗忘之前的能力。
Card 04 方法描述

方法描述

  • 核心技术:模型权重插值/合并。将预训练策略权重 θ_pre 与目标任务微调后的权重 θ_ft 进行线性插值,得到最终策略权重 θ̃ = (1 - α) * θ_pre + α * θ_ft,其中 α 为可调合并系数。
  • 两个关键改进:1. 协同微调:在微调阶段混合使用目标数据和预训练数据,以更好地保留通用性。2. 模态特定合并:为视觉-语言-动作(VLA)模型的不同组件(视觉编码器、语言模型主干、动作专家模块)使用不同的合并系数 (α_v, α_l, α_a)
  • 持续任务适应:通过迭代式合并,将顺序学习的多个任务技能累积到同一个策略中:θ̃_n = (1 - α) * θ̃_{n-1} + α * θ_ft,n
Card 05 数据集与资源

数据集与资源

  • 使用的预训练数据集:

- DROID:大规模真实世界机器人操作数据集。实验中使用的预训练策略 π₀-FAST-DROID 使用了该数据集及来自 Physical Intelligence (PI) 的额外数据(约76k个轨迹)。

- LIBERO:多任务机器人操作模拟基准套件。实验中使用的预训练策略是在 LIBERO-{object, spatial, goal, 90} 数据集(约5.3k个轨迹,117个任务)上微调过的 π₀ 模型。

  • 微调数据集:

- DROID 任务whiteboard(擦白板,约50个演示)和 plates(放盘子,约100个演示)。

- LIBERO 任务pot-on-stovemugs-on-platesitems-into-basket(每个任务约45个演示)。

  • 模型规模和训练资源未在提供的片段中明确说明,但引用了大型通用策略(如 π₀π₀-FAST-DROID),这些模型通常基于大型视觉语言模型主干构建,并在大规模GPU集群上进行训练。
Card 06 评估与结果

评估与结果

  • 评估环境:

- 真实世界:DROID机器人设置(Franka机械臂)。

- 仿真环境:LIBERO模拟器。

  • 评估指标:任务成功率。在三种设置下进行评估:

1. 目标任务 - 分布内:与微调数据场景一致的测试。

2. 目标任务 - 分布外:在未见过的任务变体(如新物体、背景、视角)上测试。

3. 通用任务:在预训练分布中的其他任务上测试,以衡量通用能力的保留情况。

  • 关键实验结果:

- 更强的 OOD 泛化:RETAIN-co-FT 在 DROID 和 LIBERO 的 OOD 评估中显著优于所有基线方法(如 Task-FT, Co-FT, LoRA, Freeze-FT, Scratch)。在 DROID 的 whiteboard 任务上,OOD 成功率接近其 ID 成功率(约80%)。

- 保留通用能力:RETAIN 在通用任务评估上的表现与预训练模型相当或更好,表明其成功保留了预训练模型的通用能力。

- 性能与预训练数据规模正相关:使用更多、更多样化预训练数据的基模型进行合并,带来的 OOD 性能提升更大。

- 模态特定合并的洞见:在多模态合并中,语言模型主干参数的合并系数 α_l 对性能影响最大,且实验表明仅合并语言模型参数(α_a = α_v = 1, α_l < 1)即可达到与合并所有参数相似的效果。

- 支持持续学习:在顺序学习两个 DROID 任务后,RETAIN 在测试两个任务时,其 ID 和 OOD 性能均优于基线方法,展现了优秀的技能累积和保留能力。