Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging

一眼看懂封面预览

提出一种通过模型参数合并实现鲁棒微调的简单方法，用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。

提出一种通过模型参数合并实现鲁棒微调的简单方法，用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
目标是使微调后的单一策略既能稳健地学习新技能（泛化到未见过的任务变体），又能保留预训练模型广泛的通用能力。
该方法旨在弥合通用策略（大规模预训练）与有效适应新特定任务之间的差距，尤其是在数据有限（约100个演示）的情况下。

Card 01 研究单位

研究单位

UC Berkeley (加州大学伯克利分校)

Card 02 论文概述

论文概述

提出一种通过模型参数合并实现鲁棒微调的简单方法，用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
目标是使微调后的单一策略既能稳健地学习新技能（泛化到未见过的任务变体），又能保留预训练模型广泛的通用能力。
该方法旨在弥合通用策略（大规模预训练）与有效适应新特定任务之间的差距，尤其是在数据有限（约100个演示）的情况下。

Card 03 核心贡献

核心贡献

提出了 RETAIN (Robust finE-tuning wiTh pArameter mergINg) 方法，一种简单的策略微调方法，通过在权重空间内插值预训练和微调后的模型参数，生成鲁棒性更强的单一策略。
在广泛的真实世界（DROID）和仿真（LIBERO）机器人微调任务中进行了全面评估，证明了 RETAIN 在新任务上具有更好的分布外（OOD）泛化能力，同时保留了通用技能，显著优于现有基线方法。
分析了影响模型合并有效性的关键因素，发现：性能随预训练数据量的增加而提升；在多模态模型中，仅合并语言模型主干参数通常就足够。
展示了 RETAIN 能够实现新技能的持续顺序学习（持续学习），通过迭代合并，将多个技能融入单一策略而不遗忘之前的能力。

Card 04 方法描述

方法描述

核心技术：模型权重插值/合并。将预训练策略权重 θ_pre 与目标任务微调后的权重 θ_ft 进行线性插值，得到最终策略权重 θ̃ = (1 - α) * θ_pre + α * θ_ft，其中 α 为可调合并系数。
两个关键改进：1. 协同微调：在微调阶段混合使用目标数据和预训练数据，以更好地保留通用性。2. 模态特定合并：为视觉-语言-动作（VLA）模型的不同组件（视觉编码器、语言模型主干、动作专家模块）使用不同的合并系数 (α_v, α_l, α_a)。
持续任务适应：通过迭代式合并，将顺序学习的多个任务技能累积到同一个策略中：θ̃_n = (1 - α) * θ̃_{n-1} + α * θ_ft,n。

Card 05 数据集与资源

数据集与资源

使用的预训练数据集：

- DROID：大规模真实世界机器人操作数据集。实验中使用的预训练策略 π₀-FAST-DROID 使用了该数据集及来自 Physical Intelligence (PI) 的额外数据（约76k个轨迹）。

- LIBERO：多任务机器人操作模拟基准套件。实验中使用的预训练策略是在 LIBERO-{object, spatial, goal, 90} 数据集（约5.3k个轨迹，117个任务）上微调过的 π₀ 模型。

微调数据集：

- DROID 任务：whiteboard（擦白板，约50个演示）和 plates（放盘子，约100个演示）。

- LIBERO 任务：pot-on-stove、mugs-on-plates、items-into-basket（每个任务约45个演示）。

模型规模和训练资源未在提供的片段中明确说明，但引用了大型通用策略（如 π₀、π₀-FAST-DROID），这些模型通常基于大型视觉语言模型主干构建，并在大规模GPU集群上进行训练。

Card 06 评估与结果

评估与结果

评估环境：

- 真实世界：DROID机器人设置（Franka机械臂）。

- 仿真环境：LIBERO模拟器。

评估指标：任务成功率。在三种设置下进行评估：

1. 目标任务 - 分布内：与微调数据场景一致的测试。

2. 目标任务 - 分布外：在未见过的任务变体（如新物体、背景、视角）上测试。

3. 通用任务：在预训练分布中的其他任务上测试，以衡量通用能力的保留情况。

关键实验结果：

- 更强的 OOD 泛化：RETAIN-co-FT 在 DROID 和 LIBERO 的 OOD 评估中显著优于所有基线方法（如 Task-FT, Co-FT, LoRA, Freeze-FT, Scratch）。在 DROID 的 whiteboard 任务上，OOD 成功率接近其 ID 成功率（约80%）。

- 保留通用能力：RETAIN 在通用任务评估上的表现与预训练模型相当或更好，表明其成功保留了预训练模型的通用能力。

- 性能与预训练数据规模正相关：使用更多、更多样化预训练数据的基模型进行合并，带来的 OOD 性能提升更大。

- 模态特定合并的洞见：在多模态合并中，语言模型主干参数的合并系数 α_l 对性能影响最大，且实验表明仅合并语言模型参数（α_a = α_v = 1, α_l < 1）即可达到与合并所有参数相似的效果。

- 支持持续学习：在顺序学习两个 DROID 任务后，RETAIN 在测试两个任务时，其 ID 和 OOD 性能均优于基线方法，展现了优秀的技能累积和保留能力。