论文提出了 STRONG-VLA 框架，旨在提升视觉-语言-动作 (VLA) 模型在多模态扰动下的鲁棒性。

论文详情

Vision-Language-Action Model, Robustness, Multi-modal Learning, Robot Manipulation

2026-04-11 · 原文 · 翻译 · 2604.10055

论文提出了 STRONG-VLA 框架，旨在提升视觉-语言-动作 (VLA) 模型在多模态扰动下的鲁棒性。现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱，导致任务执行性能严重下降。论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。

4 分钟读完 6 张阅读卡西湖大学

一眼看懂封面预览

论文提出了 STRONG-VLA 框架，旨在提升视觉-语言-动作 (VLA) 模型在多模态扰动下的鲁棒性。

论文提出了 STRONG-VLA 框架，旨在提升视觉-语言-动作 (VLA) 模型在多模态扰动下的鲁棒性。
现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱，导致任务执行性能严重下降。
论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。

Card 01 研究单位

研究单位

西湖大学
浙江大学
西安电子科技大学

Card 02 论文概述

论文概述

论文提出了 STRONG-VLA 框架，旨在提升 视觉-语言-动作 (VLA) 模型 在多模态扰动下的鲁棒性。
现有 VLA 模型在面对视觉损坏和语言噪声等联合扰动时非常脆弱，导致任务执行性能严重下降。
论文核心目标是解决现有联合训练方法中鲁棒性与任务保真度之间的优化冲突问题。

Card 03 核心贡献

核心贡献

建立了包含 28 种多模态扰动类型 的综合鲁棒性评估基准，涵盖了现实世界的传感器噪声、遮挡和指令损坏等场景。
提出了 STRONG-VLA 框架，这是一种将鲁棒性学习与任务对齐优化解耦的两阶段渐进式微调方法。
在多个 VLA 架构上提供了全面的实证证据，证明了解耦优化对多模态鲁棒性的有效性。
在模拟和真实世界实验中验证了方法的实用性和跨架构泛化能力。

Card 04 方法描述

方法描述

核心创新是采用 两阶段解耦训练策略，替代传统的联合训练。
第一阶段：课程驱动的鲁棒性获取。模型暴露于难度渐进增加的多模态扰动课程中，学习不变的跨模态表示。
第二阶段：任务对齐的细化。使用干净数据将策略重新锚定到标准任务分布，恢复执行保真度。
该设计通过分离优化目标，避免了干净输入与扰动输入之间的梯度冲突。

Card 05 数据集与资源

数据集与资源

主要评估基准为 LIBERO 基准，包含 Spatial、Objects、Goal 和 Long 四个任务套件。
使用模型包括 OpenVLA-7B、OpenVLA-OFT 和 π₀。
在 OpenVLA 模型上采用 LoRA 进行参数高效微调。
训练资源信息详见论文附录 C.1。

Card 06 评估与结果

评估与结果

评估环境包括模拟实验和真实世界机器人平台 AIRBOT Play。
主要评估指标为 任务成功率 (TSR)。
在 OpenVLA 上，方法在已见扰动下提升高达 12.60%，在未见扰动下提升 7.77%。
在 OpenVLA-OFT 和 π₀ 上取得了更大或相似的改进，展现了强跨架构泛化能力。
与 BYOVLA 和 RobustVLA 等现有鲁棒性方法相比，STRONG-VLA 在多数扰动类型下表现更优或相当。
真实世界实验进一步验证了该方法在物理机器人系统上的有效性。