返回列表 VLA / Vision-Language-Action 每日论文卡
Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation
提出了一种可解释且对抗鲁棒的视觉-语言-动作模型,用于智能农业场景中的机器人操作任务。

论文详情

Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation

2025-12-05 · 原文 · 翻译 · 2512.11865

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型,用于智能农业场景中的机器人操作任务。 旨在解决智能农业系统中,RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动(对抗性攻击)时容易失效的问题。 通过在现有VLA模型中集成一个对抗攻击检测与解释模块,提升模型的鲁棒性与可解释性。

5 分钟读完 6 张阅读卡 Department of Computer Science and Engineering, Gye…
一眼看懂 封面预览

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型,用于智能农业场景中的机器人操作任务。

  • 提出了一种可解释且对抗鲁棒的视觉-语言-动作模型,用于智能农业场景中的机器人操作任务。
  • 旨在解决智能农业系统中,RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动(对抗性攻击)时容易失效的问题。
  • 通过在现有VLA模型中集成一个对抗攻击检测与解释模块,提升模型的鲁棒性与可解释性。
Card 01 研究单位

研究单位

  • Department of Computer Science and Engineering, Gyeongsang National University
  • Department of AI Convergence Engineering, Gyeongsang National University
Card 02 论文概述

论文概述

  • 提出了一种可解释且对抗鲁棒的视觉-语言-动作模型,用于智能农业场景中的机器人操作任务。
  • 旨在解决智能农业系统中,RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动(对抗性攻击)时容易失效的问题。
  • 通过在现有VLA模型中集成一个对抗攻击检测与解释模块,提升模型的鲁棒性与可解释性
Card 03 核心贡献

核心贡献

  • 提出了一个基于OpenVLA-OFT框架的可解释对抗鲁棒视觉-语言-动作模型
  • 设计并集成了一个名为 Evidence-3 的模块,用于检测光度扰动并以自然语言解释其成因和影响。
  • 提出了一种联合训练策略,同时优化动作预测损失和可解释性损失,使模型在对抗条件下更准确、更可解释。
  • 在模拟环境中生成了包含随机光度变换的对抗性数据集,用于模型训练和评估。
  • 实验表明,该模型在对抗条件下显著提升了动作预测精度,并实现了极高的解释准确性。
Card 04 方法描述

方法描述

  • 该方法在 OpenVLA-OFT 框架基础上进行扩展。Evidence-3模块 使用三种统计度量(HSV马氏距离、高频能量比、局部熵标准差)来检测图像中的异常。
  • 检测到的统计线索被嵌入到用户指令中,作为额外输入提供给基于 Llama2 的主干模型。
  • 模型包含两个输出头:一个用于预测当前和后续机器人动作(最小化L1损失),另一个用于生成描述对抗攻击的XAI令牌(最小化交叉熵损失)。
  • 关键创新在于将对抗检测统计量语言指令融合,并通过多任务损失函数联合训练,同时优化动作预测和解释生成。
Card 05 数据集与资源

数据集与资源

  • 使用 Franka Emika Panda 机械臂和RGB相机在 Isaac Sim 仿真环境中收集数据。
  • 通过应用随机光度变换(色调偏移、光照调整、噪声注入)生成对抗性变体,构建训练数据集。
  • 模型基于 OpenVLA-OFTLlama2 主干。论文未明确提及模型的具体参数量和训练所使用的硬件资源。
Card 06 评估与结果

评估与结果

  • 评估基准:与基线模型(Default)和仅使用数据增强的对抗训练模型(Augmented)进行比较。
  • 主要评估指标:XAI令牌准确率当前动作L1损失后续动作L1损失(均越低越好)。
  • 关键实验结果:所提出的模型在XAI令牌准确率上达到 99.77%。与基线模型相比,当前动作L1损失降低了21.7%(从0.0826降至0.0647),后续动作L1损失降低了18.4%(从0.0788降至0.0643),同时性能也优于仅使用数据增强的模型。