论文针对视觉-语言-动作模型在机器人操作中的语言脆弱性问题进行研究。

论文详情

Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming

2026-04-07 · 原文 · 翻译 · 2604.05595

论文针对视觉-语言-动作模型在机器人操作中的语言脆弱性问题进行研究。指出现有的基于强化学习的红队测试方法存在模式崩塌问题，倾向于生成单一且重复的攻击指令。提出了一种新颖的 DAERT 框架，旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。

4 分钟读完 6 张阅读卡中山大学计算机科学与工程学院

一眼看懂封面预览

论文针对视觉-语言-动作模型在机器人操作中的语言脆弱性问题进行研究。

论文针对视觉-语言-动作模型在机器人操作中的语言脆弱性问题进行研究。
指出现有的基于强化学习的红队测试方法存在模式崩塌问题，倾向于生成单一且重复的攻击指令。
提出了一种新颖的 DAERT 框架，旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。

Card 01 研究单位

研究单位

中山大学 计算机科学与工程学院
香港科技大学

Card 02 论文概述

论文概述

论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。
指出现有的基于强化学习的红队测试方法存在模式崩塌问题，倾向于生成单一且重复的攻击指令。
提出了一种新颖的 DAERT 框架，旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。

Card 03 核心贡献

核心贡献

首次将具身红队测试问题形式化为指令语言脆弱性发现问题。
提出了 DAERT 框架，利用多样性感知的强化学习策略微调 VLM，有效避免了标准 RL 的模式崩塌。
实验表明该方法相比现有方法在攻击成功率上提升了 +59.7%，并展现出优异的跨模型和跨领域迁移能力。

Card 04 方法描述

方法描述

将红队测试建模为强化学习问题，目标是最大化攻击奖励并保持生成指令的熵。
引入 Implicit Diversity-Aware Actor-Critic 机制，通过评估均匀策略偏好具有广泛成功延续的行动，鼓励探索而非收敛于单一模式。
设计了 物理感知奖励函数，包含三层级联约束：可执行格式门、动作意图保持门和简洁控制门，确保生成的指令语义有效且物理可行。

Card 05 数据集与资源

数据集与资源

主要使用 LIBERO 基准进行训练和评估，并在 CALVIN 和 SimplerEnv 基准上进行迁移测试。
目标 VLA 模型包括 $\pi_0$ 和 OpenVLA。
攻击者模型使用 Qwen3-VL-4B，语义奖励使用 stsb-roberta-large 模型。
训练使用 NVIDIA RTX Pro 6000，评估使用 RTX 5090。

Card 06 评估与结果

评估与结果

评估指标包括任务成功率、CLIP 余弦距离和 LLM-as-Judge 评分。
在 LIBERO 基准上，该方法将 $\pi_0$ 模型的平均任务成功率从 93.33% 降低至 5.85%。
生成的指令在多样性指标上显著优于基线方法，LLM-as-Judge 评分达到 8.48。
零样本迁移实验显示，生成的对抗指令在 CALVIN 和 SimplerEnv 上仍保持高攻击成功率，证明了其泛化能力。