返回列表 VLA / Vision-Language-Action 每日论文卡
Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior
研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题

论文详情

Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior

2026-04-02 · 原文 · 翻译 · 2604.01570

研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题 指出现有方法直接沿用语言模型训练范式,忽略了物理动作的内在容差特性,即存在一个可行动作邻域 (FAN) 提出一种 FAN-guided 正则化方法,通过引入高斯先验塑造策略输出分布,使其符合 FAN 的几何特性,以提升样本效率和泛化能力

5 分钟读完 6 张阅读卡 上海交通大学 (Shanghai Jiao Tong University, China)
一眼看懂 封面预览

研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题

  • 研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题
  • 指出现有方法直接沿用语言模型训练范式,忽略了物理动作的内在容差特性,即存在一个可行动作邻域 (FAN)
  • 提出一种 FAN-guided 正则化方法,通过引入高斯先验塑造策略输出分布,使其符合 FAN 的几何特性,以提升样本效率和泛化能力
Card 01 研究单位

研究单位

  • 上海交通大学 (Shanghai Jiao Tong University, China)
  • 华为技术有限公司 (Huawei Technologies, China)
Card 02 论文概述

论文概述

  • 研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题
  • 指出现有方法直接沿用语言模型训练范式,忽略了物理动作的内在容差特性,即存在一个可行动作邻域 (FAN)
  • 提出一种 FAN-guided 正则化方法,通过引入高斯先验塑造策略输出分布,使其符合 FAN 的几何特性,以提升样本效率和泛化能力
Card 03 核心贡献

核心贡献

  • 形式化了 可行动作邻域 (FAN) 的概念,刻画了物理动作的局部容差结构,揭示了标准语言式 VLA 训练与物理动作几何特性之间的内在不匹配
  • 提出了一种适用于 监督微调 (SFT)强化微调 (RFT) 的 FAN-guided 正则化方法,在保持 VLA 模型离散性和自回归特性的同时,显式地将训练目标与物理操作的容差特性对齐
  • 在 SFT 和 RFT 两种范式下进行了广泛评估,覆盖多种 VLA 主干网络和操作任务,验证了该方法在样本效率、任务成功率和 OOD 泛化方面的显著提升
Card 04 方法描述

方法描述

  • 核心思想是将策略分布塑造为一个平滑、单峰的高斯形状,以反映 FAN 的局部连续性和平滑性
  • 设计了一个正则化项,定义为策略分布 π 与目标高斯分布 N(μ(s), Σ(s)) 之间的 KL 散度
  • SFT 中,使用动态协方差矩阵 Σ(s),由策略自身方差定义,以适应当前几何特性
  • RFT 中,使用固定协方差矩阵 Σ=σ²I 以确保训练稳定性,并将该正则化项集成到信任域策略优化目标中,推导出最优策略的闭式解
Card 05 数据集与资源

数据集与资源

  • 使用了两个机器人操作基准:ManiSkillLIBERO
  • 评估了两种代表性 VLA 模型:OpenVLA (输出单个动作) 和 OpenVLA-OFT (输出动作块)
  • 实验在 NVIDIA A100 GPU (80GB 内存) 上进行
Card 06 评估与结果

评估与结果

  • SFT 设置下,FAN-SFT 在 ManiSkill 基准上相比标准 SFT,ID 任务成功率提升 +11.7%,OOD 任务平均成功率提升 +5.2%
  • LIBERO-Spatial 任务中,FAN-SFT 显著提升了模型对位置偏移的鲁棒性,成功率在扰动下从 0.24 提升至 0.36
  • RFT 设置下,FAN-PPO 相比标准 PPO,在 OpenVLA 上 OOD 平均成功率提升 +6.2%,在 OpenVLA-OFT 上提升 +7.9%
  • 实验证明该方法在不同数据规模下均有效,并在空间扰动等 OOD 场景下展现出更强的泛化能力