提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
- 提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
- 目标是使微调后的单一策略既能稳健地学习新技能(泛化到未见过的任务变体),又能保留预训练模型广泛的通用能力。
- 该方法旨在弥合通用策略(大规模预训练)与有效适应新特定任务之间的差距,尤其是在数据有限(约100个演示)的情况下。
研究单位
- UC Berkeley (加州大学伯克利分校)
论文概述
- 提出一种通过模型参数合并实现鲁棒微调的简单方法,用于解决通用机器人策略在有限新任务数据上微调时的过拟合问题。
- 目标是使微调后的单一策略既能稳健地学习新技能(泛化到未见过的任务变体),又能保留预训练模型广泛的通用能力。
- 该方法旨在弥合通用策略(大规模预训练)与有效适应新特定任务之间的差距,尤其是在数据有限(约100个演示)的情况下。
核心贡献
- 提出了 RETAIN (Robust finE-tuning wiTh pArameter mergINg) 方法,一种简单的策略微调方法,通过在权重空间内插值预训练和微调后的模型参数,生成鲁棒性更强的单一策略。
- 在广泛的真实世界(DROID)和仿真(LIBERO)机器人微调任务中进行了全面评估,证明了 RETAIN 在新任务上具有更好的分布外(OOD)泛化能力,同时保留了通用技能,显著优于现有基线方法。
- 分析了影响模型合并有效性的关键因素,发现:性能随预训练数据量的增加而提升;在多模态模型中,仅合并语言模型主干参数通常就足够。
- 展示了 RETAIN 能够实现新技能的持续顺序学习(持续学习),通过迭代合并,将多个技能融入单一策略而不遗忘之前的能力。
方法描述
- 核心技术:模型权重插值/合并。将预训练策略权重
θ_pre与目标任务微调后的权重θ_ft进行线性插值,得到最终策略权重θ̃ = (1 - α) * θ_pre + α * θ_ft,其中α为可调合并系数。 - 两个关键改进:1. 协同微调:在微调阶段混合使用目标数据和预训练数据,以更好地保留通用性。2. 模态特定合并:为视觉-语言-动作(VLA)模型的不同组件(视觉编码器、语言模型主干、动作专家模块)使用不同的合并系数
(α_v, α_l, α_a)。 - 持续任务适应:通过迭代式合并,将顺序学习的多个任务技能累积到同一个策略中:
θ̃_n = (1 - α) * θ̃_{n-1} + α * θ_ft,n。
数据集与资源
- 使用的预训练数据集:
- DROID:大规模真实世界机器人操作数据集。实验中使用的预训练策略 π₀-FAST-DROID 使用了该数据集及来自 Physical Intelligence (PI) 的额外数据(约76k个轨迹)。
- LIBERO:多任务机器人操作模拟基准套件。实验中使用的预训练策略是在 LIBERO-{object, spatial, goal, 90} 数据集(约5.3k个轨迹,117个任务)上微调过的 π₀ 模型。
- 微调数据集:
- DROID 任务:whiteboard(擦白板,约50个演示)和 plates(放盘子,约100个演示)。
- LIBERO 任务:pot-on-stove、mugs-on-plates、items-into-basket(每个任务约45个演示)。
- 模型规模和训练资源未在提供的片段中明确说明,但引用了大型通用策略(如 π₀、π₀-FAST-DROID),这些模型通常基于大型视觉语言模型主干构建,并在大规模GPU集群上进行训练。
评估与结果
- 评估环境:
- 真实世界:DROID机器人设置(Franka机械臂)。
- 仿真环境:LIBERO模拟器。
- 评估指标:任务成功率。在三种设置下进行评估:
1. 目标任务 - 分布内:与微调数据场景一致的测试。
2. 目标任务 - 分布外:在未见过的任务变体(如新物体、背景、视角)上测试。
3. 通用任务:在预训练分布中的其他任务上测试,以衡量通用能力的保留情况。
- 关键实验结果:
- 更强的 OOD 泛化:RETAIN-co-FT 在 DROID 和 LIBERO 的 OOD 评估中显著优于所有基线方法(如 Task-FT, Co-FT, LoRA, Freeze-FT, Scratch)。在 DROID 的 whiteboard 任务上,OOD 成功率接近其 ID 成功率(约80%)。
- 保留通用能力:RETAIN 在通用任务评估上的表现与预训练模型相当或更好,表明其成功保留了预训练模型的通用能力。
- 性能与预训练数据规模正相关:使用更多、更多样化预训练数据的基模型进行合并,带来的 OOD 性能提升更大。
- 模态特定合并的洞见:在多模态合并中,语言模型主干参数的合并系数 α_l 对性能影响最大,且实验表明仅合并语言模型参数(α_a = α_v = 1, α_l < 1)即可达到与合并所有参数相似的效果。
- 支持持续学习:在顺序学习两个 DROID 任务后,RETAIN 在测试两个任务时,其 ID 和 OOD 性能均优于基线方法,展现了优秀的技能累积和保留能力。