返回列表 VLA / Vision-Language-Action 每日论文卡
Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming
论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。

论文详情

Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming

2026-04-07 · 原文 · 翻译 · 2604.05595

论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。 指出现有的基于强化学习的红队测试方法存在模式崩塌问题,倾向于生成单一且重复的攻击指令。 提出了一种新颖的 DAERT 框架,旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。

4 分钟读完 6 张阅读卡 中山大学 计算机科学与工程学院
一眼看懂 封面预览

论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。

  • 论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。
  • 指出现有的基于强化学习的红队测试方法存在模式崩塌问题,倾向于生成单一且重复的攻击指令。
  • 提出了一种新颖的 DAERT 框架,旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。
Card 01 研究单位

研究单位

  • 中山大学 计算机科学与工程学院
  • 香港科技大学
Card 02 论文概述

论文概述

  • 论文针对 视觉-语言-动作模型 在机器人操作中的语言脆弱性问题进行研究。
  • 指出现有的基于强化学习的红队测试方法存在模式崩塌问题,倾向于生成单一且重复的攻击指令。
  • 提出了一种新颖的 DAERT 框架,旨在生成多样化且有效的对抗性指令以测试 VLA 模型的安全性。
Card 03 核心贡献

核心贡献

  • 首次将具身红队测试问题形式化为指令语言脆弱性发现问题。
  • 提出了 DAERT 框架,利用多样性感知的强化学习策略微调 VLM,有效避免了标准 RL 的模式崩塌。
  • 实验表明该方法相比现有方法在攻击成功率上提升了 +59.7%,并展现出优异的跨模型和跨领域迁移能力。
Card 04 方法描述

方法描述

  • 将红队测试建模为强化学习问题,目标是最大化攻击奖励并保持生成指令的熵。
  • 引入 Implicit Diversity-Aware Actor-Critic 机制,通过评估均匀策略偏好具有广泛成功延续的行动,鼓励探索而非收敛于单一模式。
  • 设计了 物理感知奖励函数,包含三层级联约束:可执行格式门、动作意图保持门和简洁控制门,确保生成的指令语义有效且物理可行。
Card 05 数据集与资源

数据集与资源

  • 主要使用 LIBERO 基准进行训练和评估,并在 CALVINSimplerEnv 基准上进行迁移测试。
  • 目标 VLA 模型包括 $\pi_0$OpenVLA
  • 攻击者模型使用 Qwen3-VL-4B,语义奖励使用 stsb-roberta-large 模型。
  • 训练使用 NVIDIA RTX Pro 6000,评估使用 RTX 5090
Card 06 评估与结果

评估与结果

  • 评估指标包括任务成功率、CLIP 余弦距离和 LLM-as-Judge 评分。
  • LIBERO 基准上,该方法将 $\pi_0$ 模型的平均任务成功率从 93.33% 降低至 5.85%
  • 生成的指令在多样性指标上显著优于基线方法,LLM-as-Judge 评分达到 8.48
  • 零样本迁移实验显示,生成的对抗指令在 CALVINSimplerEnv 上仍保持高攻击成功率,证明了其泛化能力。