研究针对视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题

论文详情

Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior

2026-04-02 · 原文 · 翻译 · 2604.01570

研究针对视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题指出现有方法直接沿用语言模型训练范式，忽略了物理动作的内在容差特性，即存在一个可行动作邻域 (FAN) 提出一种 FAN-guided 正则化方法，通过引入高斯先验塑造策略输出分布，使其符合 FAN 的几何特性，以提升样本效率和泛化能力

5 分钟读完 6 张阅读卡上海交通大学 (Shanghai Jiao Tong University, China)

一眼看懂封面预览

研究针对视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题

研究针对视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题
指出现有方法直接沿用语言模型训练范式，忽略了物理动作的内在容差特性，即存在一个可行动作邻域 (FAN)
提出一种 FAN-guided 正则化方法，通过引入高斯先验塑造策略输出分布，使其符合 FAN 的几何特性，以提升样本效率和泛化能力

Card 01 研究单位

研究单位

上海交通大学 (Shanghai Jiao Tong University, China)
华为技术有限公司 (Huawei Technologies, China)

Card 02 论文概述

论文概述

研究针对 视觉-语言-动作 (VLA) 模型在机器人操作微调中存在的泛化能力差和样本效率低的问题
指出现有方法直接沿用语言模型训练范式，忽略了物理动作的内在容差特性，即存在一个可行动作邻域 (FAN)
提出一种 FAN-guided 正则化方法，通过引入高斯先验塑造策略输出分布，使其符合 FAN 的几何特性，以提升样本效率和泛化能力

Card 03 核心贡献

核心贡献

形式化了 可行动作邻域 (FAN) 的概念，刻画了物理动作的局部容差结构，揭示了标准语言式 VLA 训练与物理动作几何特性之间的内在不匹配
提出了一种适用于 监督微调 (SFT) 和 强化微调 (RFT) 的 FAN-guided 正则化方法，在保持 VLA 模型离散性和自回归特性的同时，显式地将训练目标与物理操作的容差特性对齐
在 SFT 和 RFT 两种范式下进行了广泛评估，覆盖多种 VLA 主干网络和操作任务，验证了该方法在样本效率、任务成功率和 OOD 泛化方面的显著提升

Card 04 方法描述

方法描述

核心思想是将策略分布塑造为一个平滑、单峰的高斯形状，以反映 FAN 的局部连续性和平滑性
设计了一个正则化项，定义为策略分布 π 与目标高斯分布 N(μ(s), Σ(s)) 之间的 KL 散度
在 SFT 中，使用动态协方差矩阵 Σ(s)，由策略自身方差定义，以适应当前几何特性
在 RFT 中，使用固定协方差矩阵 Σ=σ²I 以确保训练稳定性，并将该正则化项集成到信任域策略优化目标中，推导出最优策略的闭式解

Card 05 数据集与资源

数据集与资源

使用了两个机器人操作基准：ManiSkill 和 LIBERO
评估了两种代表性 VLA 模型：OpenVLA (输出单个动作) 和 OpenVLA-OFT (输出动作块)
实验在 NVIDIA A100 GPU (80GB 内存) 上进行

Card 06 评估与结果

评估与结果

在 SFT 设置下，FAN-SFT 在 ManiSkill 基准上相比标准 SFT，ID 任务成功率提升 +11.7%，OOD 任务平均成功率提升 +5.2%
在 LIBERO-Spatial 任务中，FAN-SFT 显著提升了模型对位置偏移的鲁棒性，成功率在扰动下从 0.24 提升至 0.36
在 RFT 设置下，FAN-PPO 相比标准 PPO，在 OpenVLA 上 OOD 平均成功率提升 +6.2%，在 OpenVLA-OFT 上提升 +7.9%
实验证明该方法在不同数据规模下均有效，并在空间扰动等 OOD 场景下展现出更强的泛化能力