研究 Vision-Language-Action (VLA) 模型在真实世界中面对多模态扰动的鲁棒性问题

论文详情

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

2025-09-26 · 原文 · 翻译 · 2510.00037

研究 Vision-Language-Action (VLA) 模型在真实世界中面对多模态扰动的鲁棒性问题评估了主流 VLA 模型在 17 种扰动（4 个模态：动作、观测、环境、指令）下的鲁棒性表现发现现有视觉鲁棒的 VLA 方法仅能提升视觉模态的鲁棒性，无法泛化到其他模态提出 RobustVLA 框架，同时增强 VLA 输入和输出的鲁棒性

5 分钟读完 6 张阅读卡北京航空航天大学 (Beihang University)

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型在真实世界中面对多模态扰动的鲁棒性问题

研究 Vision-Language-Action (VLA) 模型在真实世界中面对多模态扰动的鲁棒性问题
评估了主流 VLA 模型在 17 种扰动（4 个模态：动作、观测、环境、指令）下的鲁棒性表现
发现现有视觉鲁棒的 VLA 方法仅能提升视觉模态的鲁棒性，无法泛化到其他模态

Card 01 研究单位

研究单位

北京航空航天大学 (Beihang University)
北京大学 (Peking University)
香港中文大学 (The Chinese University of Hong Kong)
PKU-Psibot Lab
清华大学 (Tsinghua University)
中关村实验室 (Zhongguancun Laboratory)
合肥综合性国家科学中心 (Hefei Comprehensive National Science Center)

Card 02 论文概述

论文概述

研究 Vision-Language-Action (VLA) 模型在真实世界中面对多模态扰动的鲁棒性问题
评估了主流 VLA 模型在 17 种扰动（4 个模态：动作、观测、环境、指令）下的鲁棒性表现
发现现有视觉鲁棒的 VLA 方法仅能提升视觉模态的鲁棒性，无法泛化到其他模态
提出 RobustVLA 框架，同时增强 VLA 输入和输出的鲁棒性

Card 03 核心贡献

核心贡献

首次全面评估 VLA 在多模态噪声下的鲁棒性，发现动作模态最为脆弱
提出 RobustVLA 方法，在 π₀ backbone 上获得 12.6% 绝对提升，在 OpenVLA 上获得 10.4% 提升
推理速度比基于外部 LLM 的 BYOVLA 快 50.6 倍
在混合扰动下获得 10.4% 鲁棒性提升
真实世界实验中，使用 25 个演示即可超越 π₀ 达 65.6% 成功率

Card 04 方法描述

方法描述

输出鲁棒性：从 flow matching 目标函数推导最坏情况动作噪声，通过 PGD 生成对抗扰动，可理解为对抗训练 + 标签平滑 + 异常值惩罚的组合
输入鲁棒性：确保噪声不改变任务语义，最优动作保持不变，正则化输出动作在输入扰动下保持一致
多扰动平衡：将扰动选择建模为多臂老虎机问题，使用 UCB 算法 自动识别最有害的噪声类型进行对抗训练
基于 π₀ 的 rectified flow matching 动作头，支持泛化到其他扩散-based VLA 和自回归 VLA

Card 05 数据集与资源

数据集与资源

评估基准：LIBERO benchmark
测试扰动数量：17 种（动作 5 种、观测 6 种、环境 3 种、指令 3 种）
模型 backbone：π₀、π₀-FAST、OpenVLA
真实机器人：Fairino FR5 机械臂 + ZED2 外部相机 + Intel RealSense 435i 手腕相机

Card 06 评估与结果

评估与结果

模拟环境：在 LIBERO 上，RobustVLA 在 π₀ backbone 上平均成功率 76.6%（vs π₀ 的 62.6%）
各模态提升：动作扰动平均 +8.0%，输入扰动平均 +17.2%
消融实验：输入正则化和输出正则化相互增益，UCB 对平衡多扰动至关重要（下降 7.3%）
推理效率：~11 秒/轮次 vs BYOVLA 的 ~556 秒/轮次
真实世界：25 个演示下超越 π₀ 达 65.6%；100 个演示下仍超越 π₀ 达 30%