返回列表 VLA / Vision-Language-Action 每日论文卡
Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training
论文研究了在低数据量后训练(low-data post-training)场景下,视觉语言动作(VLA)策略容易出现的"锁入"(lock-in…

论文详情

Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training

2026-04-25 · 原文 · 翻译 · 2604.23121

论文研究了在低数据量后训练(low-data post-training)场景下,视觉语言动作(VLA)策略容易出现的"锁入"(lock-in)失败模式,即策略过度专业化于训练数据,无法泛化到新的指令 锁入表现为两种形式:概念锁入(对训练对象/属性的固守)和空间锁入(对训练空间目标的固守) 提出 DeLock 框架,通过视觉编码器权重漂移正则化保留预训练视觉接地能力,结合测试时对比提示引导(CPG)来引导动作生成

5 分钟读完 6 张阅读卡 Stanford University(斯坦福大学)
一眼看懂 封面预览

论文研究了在低数据量后训练(low-data post-training)场景下,视觉语言动作(VLA)策略容易出现的"锁入"(lock-in…

  • 论文研究了在低数据量后训练(low-data post-training)场景下,视觉语言动作(VLA)策略容易出现的"锁入"(lock-in…
  • 锁入表现为两种形式:概念锁入(对训练对象/属性的固守)和空间锁入(对训练空间目标的固守)
  • 提出 DeLock 框架,通过视觉编码器权重漂移正则化保留预训练视觉接地能力,结合测试时对比提示引导(CPG)来引导动作生成
Card 01 研究单位

研究单位

  • Stanford University(斯坦福大学)
Card 02 论文概述

论文概述

  • 论文研究了在低数据量后训练(low-data post-training)场景下,视觉语言动作(VLA)策略容易出现的"锁入"(lock-in)失败模式,即策略过度专业化于训练数据,无法泛化到新的指令
  • 锁入表现为两种形式:概念锁入(对训练对象/属性的固守)和空间锁入(对训练空间目标的固守)
  • 提出 DeLock 框架,通过视觉编码器权重漂移正则化保留预训练视觉接地能力,结合测试时对比提示引导(CPG)来引导动作生成
Card 03 核心贡献

核心贡献

  • 形式化定义了 VLA 在低数据后训练中的锁入失败模式,区分概念锁入和空间锁入两种类型
  • 提出 DeLock 框架:视觉编码器 L2 正则化保留预训练接地能力,对比提示引导(CPG)在测试时引导策略
  • 构建了新的评估基准,包含 4 个 LIBERO 仿真任务4 个 DROID 真实世界任务,系统性地评估锁入失败
  • 实验表明 DeLock 在低数据条件下显著优于基线方法,性能达到甚至超越使用大量数据后训练的最先进策略
Card 04 方法描述

方法描述

  • 视觉编码器权重漂移正则化:在标准 SFT 目标上增加 L2 惩罚项 λ\|\|θ_v - θ_v^pre\|\|²,防止视觉编码器偏离预训练参数,保留预训练的视觉接地能力
  • 对比提示引导(CPG):在测试时利用正提示(novel prompt)和负提示(trained prompt)分别计算去噪向量场,通过 v_CPG = v_τ⁻ + w(v_τ⁺ - v_τ⁻) 引导动作生成,增强指令相关方向,抑制训练偏差
  • 策略基于 Flow-Matching 条件去噪过程,通过 Euler 更新从噪声迭代到目标动作
Card 05 数据集与资源

数据集与资源

  • 仿真数据集:4 个 LIBERO 任务,每个任务 100 条演示
  • 真实世界数据集:4 个 DROID 任务,每个任务 80 条演示
  • 基础模型:π0.5-BASE 预训练 VLA 模型(基于 PaliGemma 视觉语言骨干)
  • 后训练设置:使用 LoRA 适配语言和动作模块,视觉编码器采用正则化训练
Card 06 评估与结果

评估与结果

  • 评估基准:8 个任务,T1-T8,涵盖概念锁入、空间锁入和 OOD 位置泛化
  • 主要结果

- DeLock 在概念锁入任务上:Block-Stacking 19/20,Food-on-Plate 19/20

- 空间锁入任务上:Mug-on-Plate [S] 13/20,Cup-to-Box [S] 14/20

- 组合任务 Open-Labeled-Door [C+S]:13/20

  • 对比基线

- RETAIN 在所有新提示任务上几乎完全失败(0-6/20)

- π0.5-DROID 在空间推理任务上表现不佳(11/20),在组合任务上完全失败(0/20)

  • 消融实验:移除视觉正则化或 CPG 均显著降低性能,证明两者的互补作用