返回列表 VLA / Vision-Language-Action 每日论文卡
VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling
研究了视觉-语言-动作(VLA)模型在新颖相机视角和视觉扰动下性能急剧下降的问题

论文详情

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

2025-12-02 · 原文 · 翻译 · 2512.02902

研究了视觉-语言-动作(VLA)模型在新颖相机视角和视觉扰动下性能急剧下降的问题 提出性能下降主要源于 Spatial Modeling(空间建模) 的表示错位,而非 Physical Modeling(物理建模) 的能力不足 提出了一种单次适应框架,通过极轻量级的参数更新重新校准视觉表示,以恢复模型的泛化能力

5 分钟读完 6 张阅读卡 Sun Yat-sen University
一眼看懂 封面预览

研究了视觉-语言-动作(VLA)模型在新颖相机视角和视觉扰动下性能急剧下降的问题

  • 研究了视觉-语言-动作(VLA)模型在新颖相机视角和视觉扰动下性能急剧下降的问题
  • 提出性能下降主要源于 Spatial Modeling(空间建模) 的表示错位,而非 Physical Modeling(物理建模) 的能力不足
  • 提出了一种单次适应框架,通过极轻量级的参数更新重新校准视觉表示,以恢复模型的泛化能力
Card 01 研究单位

研究单位

  • Sun Yat-sen University
  • Guangdong Key Laboratory of Big Data Analysis and Processing
  • X-Era AI Lab
Card 02 论文概述

论文概述

  • 研究了视觉-语言-动作(VLA)模型在新颖相机视角和视觉扰动下性能急剧下降的问题
  • 提出性能下降主要源于 Spatial Modeling(空间建模) 的表示错位,而非 Physical Modeling(物理建模) 的能力不足
  • 提出了一种单次适应框架,通过极轻量级的参数更新重新校准视觉表示,以恢复模型的泛化能力
Card 03 核心贡献

核心贡献

  • 重新评估了预训练 VLA 模型的鲁棒性,揭示了视觉扰动下的性能瓶颈在于视觉编码器的表示漂移
  • 提出了 Feature Token Modulation (FTM),仅需 4K 参数即可通过全局仿射变换显著提升视角鲁棒性
  • 提出了 Feature Linear Adaptation (FLA),通过对 ViT 编码器的低秩更新,以极低的成本达到了全量微调的效果
  • 构建了 Libero-V 基准测试,整合了多种视觉扰动类型以系统评估模型鲁棒性
Card 04 方法描述

方法描述

  • Feature Token Modulation (FTM):在视觉 Token 输出层应用全局仿射变换,通过两个可学习参数向量 $\gamma$ 和 $\beta$ 对特征分布进行缩放和偏移
  • Feature Linear Adaptation (FLA):借鉴 LoRA 思想,仅在 ViT 编码器内部的线性层引入低秩分解矩阵进行微调,保持主干网络冻结
  • 方法基于 $\pi_{0.5}$ 模型,通过最小化干预视觉路径来修复空间表示错位,无需重新训练整个策略模型
Card 05 数据集与资源

数据集与资源

  • Libero-V Benchmark:基于 LIBEROLibero-Plus 构建,包含相机视角变化、光照变化、背景纹理变化和图像噪声四种视觉扰动
  • 基础模型:$\pi_{0.5}$ (Vision-Language-Action policy) 及其 SigLIP 视觉骨干网络
  • 训练资源:单张 NVIDIA A100 GPU (80GB VRAM)
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO 模拟环境及搭载 Franka Emika 机械臂的真实世界环境
  • 评估指标:成功率
  • 关键结果:
  • 在新颖相机视角下,FLA 方法仅用 4.7M 参数(相比 LoRA 的 467M 参数减少了 99 倍)达到了 90.8% 的成功率,超越了 LoRA 微调基线(90.3%)
  • FTM 方法仅用 4K 参数将零样本准确率从 48.5% 提升至 87.1%
  • Libero-V 基准上,该方法在光照、纹理和噪声扰动下均表现出优异的鲁棒性