研究了视觉-语言-动作（VLA）模型在新颖相机视角和视觉扰动下性能急剧下降的问题

论文详情

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

2025-12-02 · 原文 · 翻译 · 2512.02902

研究了视觉-语言-动作（VLA）模型在新颖相机视角和视觉扰动下性能急剧下降的问题提出性能下降主要源于 Spatial Modeling（空间建模）的表示错位，而非 Physical Modeling（物理建模）的能力不足提出了一种单次适应框架，通过极轻量级的参数更新重新校准视觉表示，以恢复模型的泛化能力

5 分钟读完 6 张阅读卡 Sun Yat-sen University

一眼看懂封面预览

研究了视觉-语言-动作（VLA）模型在新颖相机视角和视觉扰动下性能急剧下降的问题

研究了视觉-语言-动作（VLA）模型在新颖相机视角和视觉扰动下性能急剧下降的问题
提出性能下降主要源于 Spatial Modeling（空间建模）的表示错位，而非 Physical Modeling（物理建模）的能力不足
提出了一种单次适应框架，通过极轻量级的参数更新重新校准视觉表示，以恢复模型的泛化能力

Card 01 研究单位

研究单位

Sun Yat-sen University
Guangdong Key Laboratory of Big Data Analysis and Processing
X-Era AI Lab

Card 02 论文概述

论文概述

研究了视觉-语言-动作（VLA）模型在新颖相机视角和视觉扰动下性能急剧下降的问题
提出性能下降主要源于 Spatial Modeling（空间建模） 的表示错位，而非 Physical Modeling（物理建模） 的能力不足
提出了一种单次适应框架，通过极轻量级的参数更新重新校准视觉表示，以恢复模型的泛化能力

Card 03 核心贡献

核心贡献

重新评估了预训练 VLA 模型的鲁棒性，揭示了视觉扰动下的性能瓶颈在于视觉编码器的表示漂移
提出了 Feature Token Modulation (FTM)，仅需 4K 参数即可通过全局仿射变换显著提升视角鲁棒性
提出了 Feature Linear Adaptation (FLA)，通过对 ViT 编码器的低秩更新，以极低的成本达到了全量微调的效果
构建了 Libero-V 基准测试，整合了多种视觉扰动类型以系统评估模型鲁棒性

Card 04 方法描述

方法描述

Feature Token Modulation (FTM)：在视觉 Token 输出层应用全局仿射变换，通过两个可学习参数向量 $\gamma$ 和 $\beta$ 对特征分布进行缩放和偏移
Feature Linear Adaptation (FLA)：借鉴 LoRA 思想，仅在 ViT 编码器内部的线性层引入低秩分解矩阵进行微调，保持主干网络冻结
方法基于 $\pi_{0.5}$ 模型，通过最小化干预视觉路径来修复空间表示错位，无需重新训练整个策略模型

Card 05 数据集与资源

数据集与资源

Libero-V Benchmark：基于 LIBERO 和 Libero-Plus 构建，包含相机视角变化、光照变化、背景纹理变化和图像噪声四种视觉扰动
基础模型：$\pi_{0.5}$ (Vision-Language-Action policy) 及其 SigLIP 视觉骨干网络
训练资源：单张 NVIDIA A100 GPU (80GB VRAM)

Card 06 评估与结果

评估与结果

评估环境：LIBERO 模拟环境及搭载 Franka Emika 机械臂的真实世界环境
评估指标：成功率
关键结果：
在新颖相机视角下，FLA 方法仅用 4.7M 参数（相比 LoRA 的 467M 参数减少了 99 倍）达到了 90.8% 的成功率，超越了 LoRA 微调基线（90.3%）
FTM 方法仅用 4K 参数将零样本准确率从 48.5% 提升至 87.1%
在 Libero-V 基准上，该方法在光照、纹理和噪声扰动下均表现出优异的鲁棒性