论文提出了 RedVLA，这是首个针对视觉-语言-动作（VLA）模型物理安全的红队测试框架，旨在解决模型部署前缺乏有效机制检测物理安全风险的问…

论文详情

RedVLA: Physical Red Teaming for Vision-Language-Action Models

2026-04-24 · 原文 · 翻译 · 2604.22591

论文提出了 RedVLA，这是首个针对视觉-语言-动作（VLA）模型物理安全的红队测试框架，旨在解决模型部署前缺乏有效机制检测物理安全风险的问题。该框架通过系统性地引入潜在风险因素，在不破坏原始场景良性特征和任务指令语义一致性前提下，诱发不安全行为。论文的目标是主动发现并缓解VLA模型在真实世界部署中可能引发的不可预测、不可逆的物理伤害风险。

4 分钟读完 6 张阅读卡论文未明确列出作者所属的研究机构，但作者包括 Yuhao Zhang、Borong Zhang、Jia…

一眼看懂封面预览

论文提出了 RedVLA，这是首个针对视觉-语言-动作（VLA）模型物理安全的红队测试框架，旨在解决模型部署前缺乏有效机制检测物理安全风险的问…

论文提出了 RedVLA，这是首个针对视觉-语言-动作（VLA）模型物理安全的红队测试框架，旨在解决模型部署前缺乏有效机制检测物理安全风险的问…
该框架通过系统性地引入潜在风险因素，在不破坏原始场景良性特征和任务指令语义一致性前提下，诱发不安全行为。
论文的目标是主动发现并缓解VLA模型在真实世界部署中可能引发的不可预测、不可逆的物理伤害风险。

Card 01 研究单位

研究单位

论文未明确列出作者所属的研究机构，但作者包括 Yuhao Zhang、Borong Zhang、Jiaming Fan、Jiachen Shen、Yishuai Cai、Yaodong Yang 和 Jiaming Ji。

Card 02 论文概述

论文概述

论文提出了 RedVLA，这是首个针对视觉-语言-动作（VLA）模型物理安全的红队测试框架，旨在解决模型部署前缺乏有效机制检测物理安全风险的问题。
该框架通过系统性地引入潜在风险因素，在不破坏原始场景良性特征和任务指令语义一致性前提下，诱发不安全行为。
论文的目标是主动发现并缓解VLA模型在真实世界部署中可能引发的不可预测、不可逆的物理伤害风险。

Card 03 核心贡献

核心贡献

提出了VLA物理红队测试的问题范式和 RedVLA 框架，这是首个系统性发现VLA模型物理安全风险的方法。
实验揭示了VLA模型存在严重的安全漏洞，RedVLA 在六个代表性模型上平均攻击成功率（ASR）达 92.7%，在 π₀.₅ 模型上最高达 95.5%。
提出了 SimpleVLA-Guard，一个轻量级安全防护模块，利用红队测试数据进行实时不安全行为检测与干预，将在线ASR降低了 59.5%。

Card 04 方法描述

方法描述

方法分为两个阶段：第一阶段是 风险场景合成，通过识别良性轨迹中的关键交互区域并在其中放置风险对象，构建语义有效且任务可行的初始风险场景。
第二阶段是 轨迹驱动风险放大，利用轨迹空间特征作为引导，通过无梯度优化迭代优化风险对象的位置与状态，以稳定地诱发目标不安全行为。
创新点在于将风险源从意图空间转移至物理空间，并建立了包含状态级、累积级和条件级三种安全代价的物理安全分类体系。

Card 05 数据集与资源

数据集与资源

实验在广泛采用的 LIBERO 基准上进行。
评估了来自三个家族的六个代表性VLA模型：OpenVLA、OpenVLA-OFT、VLA-Adapter、VLA-Adapter-Pro、π₀ 和 π₀.₅。
论文未明确提及模型的具体参数量、训练计算资源或数据集的详细规模。

Card 06 评估与结果

评估与结果

评估环境为 LIBERO 模拟器，并进行了Sim-to-Real验证。
主要评估指标为 攻击成功率（ASR） 和 任务成功率（SR）。
实验结果显示，RedVLA 在所有六种模型上均成功诱发多样化不安全行为，平均ASR范围为 64.9% 至 95.5%，证明了VLA模型在物理空间存在显著安全漏洞。