Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training

一眼看懂封面预览

论文研究了在低数据量后训练（low-data post-training）场景下，视觉语言动作（VLA）策略容易出现的"锁入"（lock-in…

Card 01 研究单位

研究单位

Card 02 论文概述

论文研究了在低数据量后训练（low-data post-training）场景下，视觉语言动作（VLA）策略容易出现的"锁入"（lock-in）失败模式，即策略过度专业化于训练数据，无法泛化到新的指令
锁入表现为两种形式：概念锁入（对训练对象/属性的固守）和空间锁入（对训练空间目标的固守）
提出 DeLock 框架，通过视觉编码器权重漂移正则化保留预训练视觉接地能力，结合测试时对比提示引导（CPG）来引导动作生成

Card 03 核心贡献

Card 04 方法描述

视觉编码器权重漂移正则化：在标准 SFT 目标上增加 L2 惩罚项 λ\|\|θ_v - θ_v^pre\|\|²，防止视觉编码器偏离预训练参数，保留预训练的视觉接地能力
对比提示引导（CPG）：在测试时利用正提示（novel prompt）和负提示（trained prompt）分别计算去噪向量场，通过 v_CPG = v_τ⁻ + w(v_τ⁺ - v_τ⁻) 引导动作生成，增强指令相关方向，抑制训练偏差
策略基于 Flow-Matching 条件去噪过程，通过 Euler 更新从噪声迭代到目标动作

Card 05 数据集与资源

Card 06 评估与结果

- DeLock 在概念锁入任务上：Block-Stacking 19/20，Food-on-Plate 19/20

- 空间锁入任务上：Mug-on-Plate [S] 13/20，Cup-to-Box [S] 14/20

- 组合任务 Open-Labeled-Door [C+S]：13/20

- RETAIN 在所有新提示任务上几乎完全失败（0-6/20）

- π0.5-DROID 在空间推理任务上表现不佳（11/20），在组合任务上完全失败（0/20）