返回列表 VLA / Vision-Language-Action 每日论文卡
Vision-Language-Action Model, Robustness, Multi-modal Learning, Robot Manipulation
论文提出了 STRONG-VLA 框架,旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。

论文详情

Vision-Language-Action Model, Robustness, Multi-modal Learning, Robot Manipulation

2026-04-11 · 原文 · 翻译 · 2604.10055

论文提出了 STRONG-VLA 框架,旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。 现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱,导致任务执行性能严重下降。 论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。

4 分钟读完 6 张阅读卡 西湖大学
一眼看懂 封面预览

论文提出了 STRONG-VLA 框架,旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。

  • 论文提出了 STRONG-VLA 框架,旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。
  • 现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱,导致任务执行性能严重下降。
  • 论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。
Card 01 研究单位

研究单位

  • 西湖大学
  • 浙江大学
  • 西安电子科技大学
Card 02 论文概述

论文概述

  • 论文提出了 STRONG-VLA 框架,旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。
  • 现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱,导致任务执行性能严重下降。
  • 论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。
Card 03 核心贡献

核心贡献

  • 建立了包含 28 种多模态扰动类型 的综合鲁棒性评估基准,涵盖了现实世界的传感器噪声、遮挡和指令损坏等场景。
  • 提出了 STRONG-VLA 框架,这是一种将鲁棒性学习与任务对齐优化解耦的两阶段渐进式微调方法。
  • 在多个 VLA 架构上提供了全面的实证证据,证明了解耦优化对多模态鲁棒性的有效性。
  • 在模拟和真实世界实验中验证了方法的实用性和跨架构泛化能力。
Card 04 方法描述

方法描述

  • 核心创新是采用 两阶段解耦训练策略,替代传统的联合训练。
  • 第一阶段:课程驱动的鲁棒性获取。模型暴露于难度渐进增加的多模态扰动课程中,学习不变的跨模态表示。
  • 第二阶段:任务对齐的细化。使用干净数据将策略重新锚定到标准任务分布,恢复执行保真度。
  • 该设计通过分离优化目标,避免了干净输入与扰动输入之间的梯度冲突。
Card 05 数据集与资源

数据集与资源

  • 主要评估基准为 LIBERO 基准,包含 Spatial、Objects、Goal 和 Long 四个任务套件。
  • 使用模型包括 OpenVLA-7BOpenVLA-OFTπ₀
  • 在 OpenVLA 模型上采用 LoRA 进行参数高效微调。
  • 训练资源信息详见论文附录 C.1。
Card 06 评估与结果

评估与结果

  • 评估环境包括模拟实验和真实世界机器人平台 AIRBOT Play
  • 主要评估指标为 任务成功率 (TSR)
  • OpenVLA 上,方法在已见扰动下提升高达 12.60%,在未见扰动下提升 7.77%
  • OpenVLA-OFTπ₀ 上取得了更大或相似的改进,展现了强跨架构泛化能力。
  • BYOVLARobustVLA 等现有鲁棒性方法相比,STRONG-VLA 在多数扰动类型下表现更优或相当。
  • 真实世界实验进一步验证了该方法在物理机器人系统上的有效性。